cuda: leverage JIT for smaller footprint (ollama#11635)

dhiltgen · rick-github · commit 3f9fe3e50ec6 · 2025-08-20T16:41:49.000+02:00
Prior to this change our official binaries contained both JIT PTX code and
the cubin binary code for our chosen compute capabilities. This change
switches to only compile the PTX code and rely on JIT at runtime for
generating the cubin specific to the users GPU.  The cubins are cached
on the users system, so they should only see a small lag on the very
first model load for a given Ollama release.  This also adds the first
generation of Blackwell GPUs so they aren't reliant on the Hopper PTX.

This change reduces the ggml-cuda.dll from 1.2G to 460M
diff --git a/CMakePresets.json b/CMakePresets.json
@@ -22,22 +22,22 @@
       "name": "CUDA 12",
       "inherits": [ "CUDA" ],
       "cacheVariables": {
-        "CMAKE_CUDA_ARCHITECTURES": "50;60;61;70;75;80;86;87;89;90;90a;120",
+        "CMAKE_CUDA_ARCHITECTURES": "50-virtual;60-virtual;61-virtual;70-virtual;75-virtual;80-virtual;86-virtual;89-virtual;90-virtual;90a-virtual;100-virtual;120-virtual",
         "CMAKE_CUDA_FLAGS": "-Wno-deprecated-gpu-targets -t 2"
       }
     },
     {
       "name": "JetPack 5",
       "inherits": [ "CUDA" ],
       "cacheVariables": {
-        "CMAKE_CUDA_ARCHITECTURES": "72;87"
+        "CMAKE_CUDA_ARCHITECTURES": "72-virtual;87-virtual"
       }
     },
     {
       "name": "JetPack 6",
       "inherits": [ "CUDA" ],
       "cacheVariables": {
-        "CMAKE_CUDA_ARCHITECTURES": "87"
+        "CMAKE_CUDA_ARCHITECTURES": "87-virtual"
       }
     },
     {

Original file line number	Diff line number	Diff line change
`@@ -22,22 +22,22 @@`
`22`	`22`	`"name": "CUDA 12",`
`23`	`23`	`"inherits": [ "CUDA" ],`
`24`	`24`	`"cacheVariables": {`
`25`		`- "CMAKE_CUDA_ARCHITECTURES": "50;60;61;70;75;80;86;87;89;90;90a;120",`
	`25`	`+ "CMAKE_CUDA_ARCHITECTURES": "50-virtual;60-virtual;61-virtual;70-virtual;75-virtual;80-virtual;86-virtual;89-virtual;90-virtual;90a-virtual;100-virtual;120-virtual",`
`26`	`26`	`"CMAKE_CUDA_FLAGS": "-Wno-deprecated-gpu-targets -t 2"`
`27`	`27`	`}`
`28`	`28`	`},`
`29`	`29`	`{`
`30`	`30`	`"name": "JetPack 5",`
`31`	`31`	`"inherits": [ "CUDA" ],`
`32`	`32`	`"cacheVariables": {`
`33`		`- "CMAKE_CUDA_ARCHITECTURES": "72;87"`
	`33`	`+ "CMAKE_CUDA_ARCHITECTURES": "72-virtual;87-virtual"`
`34`	`34`	`}`
`35`	`35`	`},`
`36`	`36`	`{`
`37`	`37`	`"name": "JetPack 6",`
`38`	`38`	`"inherits": [ "CUDA" ],`
`39`	`39`	`"cacheVariables": {`
`40`		`- "CMAKE_CUDA_ARCHITECTURES": "87"`
	`40`	`+ "CMAKE_CUDA_ARCHITECTURES": "87-virtual"`
`41`	`41`	`}`
`42`	`42`	`},`
`43`	`43`	`{`