ollama Minimal use of GPU in Docker (windows)

my GPU is being used 23% while cpu is at 100% while using a docker image in windows environment.

Jan 18 '24 01:01 sumitsodhi88

Your GPU is waiting for your CPU, which is the result of the model not fitting in VRAM.

Jan 18 '24 02:01 easp

@sumitsodhi88 if you're still having this problem, can you share the server log?

https://github.com/ollama/ollama/blob/main/docs/troubleshooting.md#how-to-troubleshoot-issues

Jan 27 '24 00:01 dhiltgen

2024-01-27 2024-01-27 07:11:32 2024/01/27 01:41:32 images.go:815: 2024-01-27 07:11:32 2024/01/27 01:41:32 routes.go:930: 2024-01-27 07:11:36 2024/01/27 01:41:36 shim_ext_server.go:142: 2024-01-27 07:11:36 2024/01/27 01:41:36 gpu.go:88: 2024-01-27 07:11:36 2024/01/27 01:41:36 gpu.go:203: 2024-01-27 07:11:36 2024/01/27 01:41:36 gpu.go:248: 2024-01-27 07:11:36 2024/01/27 01:41:36 gpu.go:94: 2024-01-27 07:11:36 2024/01/27 01:41:36 gpu.go:135: 2024-01-27 07:12:31 2024/01/27 01:42:31 gpu.go:135: 2024-01-27 07:12:31 2024/01/27 01:42:31 gpu.go:135: 2024-01-27 07:12:31 2024/01/27 01:42:31 shim_ext_serve 2024-01-27 07:12:31 2024/01/27 01:42:31 shim_ext_server.go:92: 2024-01-27 07:12:31 2024/01/27 01:42:31 ext_server_common.go:136: 2024-01-27 07:12:32 ggml_init_cublas: GGML_CUDA_FORCE_MMQ: 2024-01-27 07:12:32 ggml_init_cublas: CUDA_USE_TENSOR_CORES: 2024-01-27 07:12:32 ggml_init_cublas: found 1 2024-01-27 07:12:32 Device 0: NVIDIA GeForce 2024-01-27 07:12:33 llama_model_loader: loaded 2024-01-27 07:12:33 llama_model_loader: - tensor 0: 2024-01-27 07:12:33 llama_model_loader: - tensor 1: 2024-01-27 07:12:33 llama_model_loader: - tensor 2: 2024-01-27 07:12:33 llama_model_loader: - tensor 3: 2024-01-27 07:12:33 llama_model_loader: - tensor 4: 2024-01-27 07:12:33 llama_model_loader: - tensor 5: 2024-01-27 07:12:33 llama_model_loader: - tensor 6: 2024-01-27 07:12:33 llama_model_loader: - tensor 7: 2024-01-27 07:12:33 llama_model_loader: - tensor 8: 2024-01-27 07:12:33 llama_model_loader: - tensor 9: 2024-01-27 07:12:33 llama_model_loader: - tensor 10: 2024-01-27 07:12:33 llama_model_loader: - tensor 11: 2024-01-27 07:12:33 llama_model_loader: - tensor 12: 2024-01-27 07:12:33 llama_model_loader: - tensor 13: 2024-01-27 07:12:33 llama_model_loader: - tensor 14: 2024-01-27 07:12:33 llama_model_loader: - tensor 15: 2024-01-27 07:12:33 llama_model_loader: - tensor 16: 2024-01-27 07:12:33 llama_model_loader: - tensor 17: 2024-01-27 07:12:33 llama_model_loader: - tensor 18: 2024-01-27 07:12:33 llama_model_loader: - tensor 19: 2024-01-27 07:12:33 llama_model_loader: - tensor 20: 2024-01-27 07:12:33 llama_model_loader: - tensor 21: 2024-01-27 07:12:33 llama_model_loader: - tensor 22: 2024-01-27 07:12:33 llama_model_loader: - tensor 23: 2024-01-27 07:12:33 llama_model_loader: - tensor 24: 2024-01-27 07:12:33 llama_model_loader: - tensor 25: 2024-01-27 07:12:33 llama_model_loader: - tensor 26: 2024-01-27 07:12:33 llama_model_loader: - tensor 27: 2024-01-27 07:12:33 llama_model_loader: - tensor 28: 2024-01-27 07:12:33 llama_model_loader: - tensor 29: 2024-01-27 07:12:33 llama_model_loader: - tensor 30: 2024-01-27 07:12:33 llama_model_loader: - tensor 31: 2024-01-27 07:12:33 llama_model_loader: - tensor 32: 2024-01-27 07:12:33 llama_model_loader: - tensor 33: 2024-01-27 07:12:33 llama_model_loader: - tensor 34: 2024-01-27 07:12:33 llama_model_loader: - tensor 35: 2024-01-27 07:12:33 llama_model_loader: - tensor 36: 2024-01-27 07:12:33 llama_model_loader: - tensor 37: 2024-01-27 07:12:33 llama_model_loader: - tensor 38: 2024-01-27 07:12:33 llama_model_loader: - tensor 39: 2024-01-27 07:12:33 llama_model_loader: - tensor 40: 2024-01-27 07:12:33 llama_model_loader: - tensor 41: 2024-01-27 07:12:33 llama_model_loader: - tensor 42: 2024-01-27 07:12:33 llama_model_loader: - tensor 43: 2024-01-27 07:12:33 llama_model_loader: - tensor 44: 2024-01-27 07:12:33 llama_model_loader: - tensor 45: 2024-01-27 07:12:33 llama_model_loader: - tensor 46: 2024-01-27 07:12:33 llama_model_loader: - tensor 47: 2024-01-27 07:12:33 llama_model_loader: - tensor 48: 2024-01-27 07:12:33 llama_model_loader: - tensor 49: 2024-01-27 07:12:33 llama_model_loader: - tensor 50: 2024-01-27 07:12:33 llama_model_loader: - tensor 51: 2024-01-27 07:12:33 llama_model_loader: - tensor 52: 2024-01-27 07:12:33 llama_model_loader: - tensor 53: 2024-01-27 07:12:33 llama_model_loader: - tensor 54: 2024-01-27 07:12:33 llama_model_loader: - tensor 55: 2024-01-27 07:12:33 llama_model_loader: - tensor 56: 2024-01-27 07:12:33 llama_model_loader: - tensor 57: 2024-01-27 07:12:33 llama_model_loader: - tensor 58: 2024-01-27 07:12:33 llama_model_loader: - tensor 59: 2024-01-27 07:12:33 llama_model_loader: - tensor 60: 2024-01-27 07:12:33 llama_model_loader: - tensor 61: 2024-01-27 07:12:33 llama_model_loader: - tensor 62: 2024-01-27 07:12:33 llama_model_loader: - tensor 63: 2024-01-27 07:12:33 llama_model_loader: - tensor 64: 2024-01-27 07:12:33 llama_model_loader: - tensor 65: 2024-01-27 07:12:33 llama_model_loader: - tensor 66: 2024-01-27 07:12:33 llama_model_loader: - tensor 67: 2024-01-27 07:12:33 llama_model_loader: - tensor 68: 2024-01-27 07:12:33 llama_model_loader: - tensor 69: 2024-01-27 07:12:33 llama_model_loader: - tensor 70: 2024-01-27 07:12:33 llama_model_loader: - tensor 71: 2024-01-27 07:12:33 llama_model_loader: - tensor 72: 2024-01-27 07:12:33 llama_model_loader: - tensor 73: 2024-01-27 07:12:33 llama_model_loader: - tensor 74: 2024-01-27 07:12:33 llama_model_loader: - tensor 75: 2024-01-27 07:12:33 llama_model_loader: - tensor 76: 2024-01-27 07:12:33 llama_model_loader: - tensor 77: 2024-01-27 07:12:33 llama_model_loader: - tensor 78: 2024-01-27 07:12:33 llama_model_loader: - tensor 79: 2024-01-27 07:12:33 llama_model_loader: - tensor 80: 2024-01-27 07:12:33 llama_model_loader: - tensor 81: 2024-01-27 07:12:33 llama_model_loader: - tensor 82: 2024-01-27 07:12:33 llama_model_loader: - tensor 83: 2024-01-27 07:12:33 llama_model_loader: - tensor 84: 2024-01-27 07:12:33 llama_model_loader: - tensor 85: 2024-01-27 07:12:33 llama_model_loader: - tensor 86: 2024-01-27 07:12:33 llama_model_loader: - tensor 87: 2024-01-27 07:12:33 llama_model_loader: - tensor 88: 2024-01-27 07:12:33 llama_model_loader: - tensor 89: 2024-01-27 07:12:33 llama_model_loader: - tensor 90: 2024-01-27 07:12:33 llama_model_loader: - tensor 91: 2024-01-27 07:12:33 llama_model_loader: - tensor 92: 2024-01-27 07:12:33 llama_model_loader: - tensor 93: 2024-01-27 07:12:33 llama_model_loader: - tensor 94: 2024-01-27 07:12:33 llama_model_loader: - tensor 95: 2024-01-27 07:12:33 llama_model_loader: - tensor 96: 2024-01-27 07:12:33 llama_model_loader: - tensor 97: 2024-01-27 07:12:33 llama_model_loader: - tensor 98: 2024-01-27 07:12:33 llama_model_loader: - tensor 99: 2024-01-27 07:12:33 llama_model_loader: - tensor 100: 2024-01-27 07:12:33 llama_model_loader: - tensor 101: 2024-01-27 07:12:33 llama_model_loader: - tensor 102: 2024-01-27 07:12:33 llama_model_loader: - tensor 103: 2024-01-27 07:12:33 llama_model_loader: - tensor 104: 2024-01-27 07:12:33 llama_model_loader: - tensor 105: 2024-01-27 07:12:33 llama_model_loader: - tensor 106: 2024-01-27 07:12:33 llama_model_loader: - tensor 107: 2024-01-27 07:12:33 llama_model_loader: - tensor 108: 2024-01-27 07:12:33 llama_model_loader: - tensor 109: 2024-01-27 07:12:33 llama_model_loader: - tensor 110: 2024-01-27 07:12:33 llama_model_loader: - tensor 111: 2024-01-27 07:12:33 llama_model_loader: - tensor 112: 2024-01-27 07:12:33 llama_model_loader: - tensor 113: 2024-01-27 07:12:33 llama_model_loader: - tensor 114: 2024-01-27 07:12:33 llama_model_loader: - tensor 115: 2024-01-27 07:12:33 llama_model_loader: - tensor 116: 2024-01-27 07:12:33 llama_model_loader: - tensor 117: 2024-01-27 07:12:33 llama_model_loader: - tensor 118: 2024-01-27 07:12:33 llama_model_loader: - tensor 119: 2024-01-27 07:12:33 llama_model_loader: - tensor 120: 2024-01-27 07:12:33 llama_model_loader: - tensor 121: 2024-01-27 07:12:33 llama_model_loader: - tensor 122: 2024-01-27 07:12:33 llama_model_loader: - tensor 123: 2024-01-27 07:12:33 llama_model_loader: - tensor 124: 2024-01-27 07:12:33 llama_model_loader: - tensor 125: 2024-01-27 07:12:33 llama_model_loader: - tensor 126: 2024-01-27 07:12:33 llama_model_loader: - tensor 127: 2024-01-27 07:12:33 llama_model_loader: - tensor 128: 2024-01-27 07:12:33 llama_model_loader: - tensor 129: 2024-01-27 07:12:33 llama_model_loader: - tensor 130: 2024-01-27 07:12:33 llama_model_loader: - tensor 131: 2024-01-27 07:12:33 llama_model_loader: - tensor 132: 2024-01-27 07:12:33 llama_model_loader: - tensor 133: 2024-01-27 07:12:33 llama_model_loader: - tensor 134: 2024-01-27 07:12:33 llama_model_loader: - tensor 135: 2024-01-27 07:12:33 llama_model_loader: - tensor 136: 2024-01-27 07:12:33 llama_model_loader: - tensor 137: 2024-01-27 07:12:33 llama_model_loader: - tensor 138: 2024-01-27 07:12:33 llama_model_loader: - tensor 139: 2024-01-27 07:12:33 llama_model_loader: - tensor 140: 2024-01-27 07:12:33 llama_model_loader: - tensor 141: 2024-01-27 07:12:33 llama_model_loader: - tensor 142: 2024-01-27 07:12:33 llama_model_loader: - tensor 143: 2024-01-27 07:12:33 llama_model_loader: - tensor 144: 2024-01-27 07:12:33 llama_model_loader: - tensor 145: 2024-01-27 07:12:33 llama_model_loader: - tensor 146: 2024-01-27 07:12:33 llama_model_loader: - tensor 147: 2024-01-27 07:12:33 llama_model_loader: - tensor 148: 2024-01-27 07:12:33 llama_model_loader: - tensor 149: 2024-01-27 07:12:33 llama_model_loader: - tensor 150: 2024-01-27 07:12:33 llama_model_loader: - tensor 151: 2024-01-27 07:12:33 llama_model_loader: - tensor 152: 2024-01-27 07:12:33 llama_model_loader: - tensor 153: 2024-01-27 07:12:33 llama_model_loader: - tensor 154: 2024-01-27 07:12:33 llama_model_loader: - tensor 155: 2024-01-27 07:12:33 llama_model_loader: - tensor 156: 2024-01-27 07:12:33 llama_model_loader: - tensor 157: 2024-01-27 07:12:33 llama_model_loader: - tensor 158: 2024-01-27 07:12:33 llama_model_loader: - tensor 159: 2024-01-27 07:12:33 llama_model_loader: - tensor 160: 2024-01-27 07:12:33 llama_model_loader: - tensor 161: 2024-01-27 07:12:33 llama_model_loader: - tensor 162: 2024-01-27 07:12:33 llama_model_loader: - tensor 163: 2024-01-27 07:12:33 llama_model_loader: - tensor 164: 2024-01-27 07:12:33 llama_model_loader: - tensor 165: 2024-01-27 07:12:33 llama_model_loader: - tensor 166: 2024-01-27 07:12:33 llama_model_loader: - tensor 167: 2024-01-27 07:12:33 llama_model_loader: - tensor 168: 2024-01-27 07:12:33 llama_model_loader: - tensor 169: 2024-01-27 07:12:33 llama_model_loader: - tensor 170: 2024-01-27 07:12:33 llama_model_loader: - tensor 171: 2024-01-27 07:12:33 llama_model_loader: - tensor 172: 2024-01-27 07:12:33 llama_model_loader: - tensor 173: 2024-01-27 07:12:33 llama_model_loader: - tensor 174: 2024-01-27 07:12:33 llama_model_loader: - tensor 175: 2024-01-27 07:12:33 llama_model_loader: - tensor 176: 2024-01-27 07:12:33 llama_model_loader: - tensor 177: 2024-01-27 07:12:33 llama_model_loader: - tensor 178: 2024-01-27 07:12:33 llama_model_loader: - tensor 179: 2024-01-27 07:12:33 llama_model_loader: - tensor 180: 2024-01-27 07:12:33 llama_model_loader: - tensor 181: 2024-01-27 07:12:33 llama_model_loader: - tensor 182: 2024-01-27 07:12:33 llama_model_loader: - tensor 183: 2024-01-27 07:12:33 llama_model_loader: - tensor 184: 2024-01-27 07:12:33 llama_model_loader: - tensor 185: 2024-01-27 07:12:33 llama_model_loader: - tensor 186: 2024-01-27 07:12:33 llama_model_loader: - tensor 187: 2024-01-27 07:12:33 llama_model_loader: - tensor 188: 2024-01-27 07:12:33 llama_model_loader: - tensor 189: 2024-01-27 07:12:33 llama_model_loader: - tensor 190: 2024-01-27 07:12:33 llama_model_loader: - tensor 191: 2024-01-27 07:12:33 llama_model_loader: - tensor 192: 2024-01-27 07:12:33 llama_model_loader: - tensor 193: 2024-01-27 07:12:33 llama_model_loader: - tensor 194: 2024-01-27 07:12:33 llama_model_loader: - tensor 195: 2024-01-27 07:12:33 llama_model_loader: - tensor 196: 2024-01-27 07:12:33 llama_model_loader: - tensor 197: 2024-01-27 07:12:33 llama_model_loader: - tensor 198: 2024-01-27 07:12:33 llama_model_loader: - tensor 199: 2024-01-27 07:12:33 llama_model_loader: - tensor 200: 2024-01-27 07:12:33 llama_model_loader: - tensor 201: 2024-01-27 07:12:33 llama_model_loader: - tensor 202: 2024-01-27 07:12:33 llama_model_loader: - tensor 203: 2024-01-27 07:12:33 llama_model_loader: - tensor 204: 2024-01-27 07:12:33 llama_model_loader: - tensor 205: 2024-01-27 07:12:33 llama_model_loader: - tensor 206: 2024-01-27 07:12:33 llama_model_loader: - tensor 207: 2024-01-27 07:12:33 llama_model_loader: - tensor 208: 2024-01-27 07:12:33 llama_model_loader: - tensor 209: 2024-01-27 07:12:33 llama_model_loader: - tensor 210: 2024-01-27 07:12:33 llama_model_loader: - tensor 211: 2024-01-27 07:12:33 llama_model_loader: - tensor 212: 2024-01-27 07:12:33 llama_model_loader: - tensor 213: 2024-01-27 07:12:33 llama_model_loader: - tensor 214: 2024-01-27 07:12:33 llama_model_loader: - tensor 215: 2024-01-27 07:12:33 llama_model_loader: - tensor 216: 2024-01-27 07:12:33 llama_model_loader: - tensor 217: 2024-01-27 07:12:33 llama_model_loader: - tensor 218: 2024-01-27 07:12:33 llama_model_loader: - tensor 219: 2024-01-27 07:12:33 llama_model_loader: - tensor 220: 2024-01-27 07:12:33 llama_model_loader: - tensor 221: 2024-01-27 07:12:33 llama_model_loader: - tensor 222: 2024-01-27 07:12:33 llama_model_loader: - tensor 223: 2024-01-27 07:12:33 llama_model_loader: - tensor 224: 2024-01-27 07:12:33 llama_model_loader: - tensor 225: 2024-01-27 07:12:33 llama_model_loader: - tensor 226: 2024-01-27 07:12:33 llama_model_loader: - tensor 227: 2024-01-27 07:12:33 llama_model_loader: - tensor 228: 2024-01-27 07:12:33 llama_model_loader: - tensor 229: 2024-01-27 07:12:33 llama_model_loader: - tensor 230: 2024-01-27 07:12:33 llama_model_loader: - tensor 231: 2024-01-27 07:12:33 llama_model_loader: - tensor 232: 2024-01-27 07:12:33 llama_model_loader: - tensor 233: 2024-01-27 07:12:33 llama_model_loader: - tensor 234: 2024-01-27 07:12:33 llama_model_loader: - tensor 235: 2024-01-27 07:12:33 llama_model_loader: - tensor 236: 2024-01-27 07:12:33 llama_model_loader: - tensor 237: 2024-01-27 07:12:33 llama_model_loader: - tensor 238: 2024-01-27 07:12:33 llama_model_loader: - tensor 239: 2024-01-27 07:12:33 llama_model_loader: - tensor 240: 2024-01-27 07:12:33 llama_model_loader: - tensor 241: 2024-01-27 07:12:33 llama_model_loader: - tensor 242: 2024-01-27 07:12:33 llama_model_loader: - tensor 243: 2024-01-27 07:12:33 llama_model_loader: - tensor 244: 2024-01-27 07:12:33 llama_model_loader: - tensor 245: 2024-01-27 07:12:33 llama_model_loader: - tensor 246: 2024-01-27 07:12:33 llama_model_loader: - tensor 247: 2024-01-27 07:12:33 llama_model_loader: - tensor 248: 2024-01-27 07:12:33 llama_model_loader: - tensor 249: 2024-01-27 07:12:33 llama_model_loader: - tensor 250: 2024-01-27 07:12:33 llama_model_loader: - tensor 251: 2024-01-27 07:12:33 llama_model_loader: - tensor 252: 2024-01-27 07:12:33 llama_model_loader: - tensor 253: 2024-01-27 07:12:33 llama_model_loader: - tensor 254: 2024-01-27 07:12:33 llama_model_loader: - tensor 255: 2024-01-27 07:12:33 llama_model_loader: - tensor 256: 2024-01-27 07:12:33 llama_model_loader: - tensor 257: 2024-01-27 07:12:33 llama_model_loader: - tensor 258: 2024-01-27 07:12:33 llama_model_loader: - tensor 259: 2024-01-27 07:12:33 llama_model_loader: - tensor 260: 2024-01-27 07:12:33 llama_model_loader: - tensor 261: 2024-01-27 07:12:33 llama_model_loader: - tensor 262: 2024-01-27 07:12:33 llama_model_loader: - tensor 263: 2024-01-27 07:12:33 llama_model_loader: - tensor 264: 2024-01-27 07:12:33 llama_model_loader: - tensor 265: 2024-01-27 07:12:33 llama_model_loader: - tensor 266: 2024-01-27 07:12:33 llama_model_loader: - tensor 267: 2024-01-27 07:12:33 llama_model_loader: - tensor 268: 2024-01-27 07:12:33 llama_model_loader: - tensor 269: 2024-01-27 07:12:33 llama_model_loader: - tensor 270: 2024-01-27 07:12:33 llama_model_loader: - tensor 271: 2024-01-27 07:12:33 llama_model_loader: - tensor 272: 2024-01-27 07:12:33 llama_model_loader: - tensor 273: 2024-01-27 07:12:33 llama_model_loader: - tensor 274: 2024-01-27 07:12:33 llama_model_loader: - tensor 275: 2024-01-27 07:12:33 llama_model_loader: - tensor 276: 2024-01-27 07:12:33 llama_model_loader: - tensor 277: 2024-01-27 07:12:33 llama_model_loader: - tensor 278: 2024-01-27 07:12:33 llama_model_loader: - tensor 279: 2024-01-27 07:12:33 llama_model_loader: - tensor 280: 2024-01-27 07:12:33 llama_model_loader: - tensor 281: 2024-01-27 07:12:33 llama_model_loader: - tensor 282: 2024-01-27 07:12:33 llama_model_loader: - tensor 283: 2024-01-27 07:12:33 llama_model_loader: - tensor 284: 2024-01-27 07:12:33 llama_model_loader: - tensor 285: 2024-01-27 07:12:33 llama_model_loader: - tensor 286: 2024-01-27 07:12:33 llama_model_loader: - tensor 287: 2024-01-27 07:12:33 llama_model_loader: - tensor 288: 2024-01-27 07:12:33 llama_model_loader: - tensor 289: 2024-01-27 07:12:33 llama_model_loader: - tensor 290: 2024-01-27 07:12:33 llama_model_loader: Dumping 2024-01-27 07:12:33 llama_model_loader: - kv 0: 2024-01-27 07:12:33 llama_model_loader: - kv 1: 2024-01-27 07:12:33 llama_model_loader: - kv 2: 2024-01-27 07:12:33 llama_model_loader: - kv 3: 2024-01-27 07:12:33 llama_model_loader: - kv 4: 2024-01-27 07:12:33 llama_model_loader: - kv 5: 2024-01-27 07:12:33 llama_model_loader: - kv 6: 2024-01-27 07:12:33 llama_model_loader: - kv 7: 2024-01-27 07:12:33 llama_model_loader: - kv 8: 2024-01-27 07:12:33 llama_model_loader: - kv 9: 2024-01-27 07:12:33 llama_model_loader: - kv 10: 2024-01-27 07:12:33 llama_model_loader: - kv 11: 2024-01-27 07:12:33 llama_model_loader: - kv 12: 2024-01-27 07:12:33 llama_model_loader: - kv 13: 2024-01-27 07:12:33 llama_model_loader: - kv 14: 2024-01-27 07:12:33 llama_model_loader: - kv 15: 2024-01-27 07:12:33 llama_model_loader: - kv 16: 2024-01-27 07:12:33 llama_model_loader: - kv 17: 2024-01-27 07:12:33 llama_model_loader: - kv 18: 2024-01-27 07:12:33 llama_model_loader: - kv 19: 2024-01-27 07:12:33 llama_model_loader: - kv 20: 2024-01-27 07:12:33 llama_model_loader: - kv 21: 2024-01-27 07:12:33 llama_model_loader: - kv 22: 2024-01-27 07:12:33 llama_model_loader: - kv 23: 2024-01-27 07:12:33 llama_model_loader: - type f32: 2024-01-27 07:12:33 llama_model_loader: - type q4_0: 2024-01-27 07:12:33 llama_model_loader: - type q6_K: 2024-01-27 07:12:33 llm_load_vocab: special tokens 2024-01-27 07:12:33 llm_load_print_meta: format 2024-01-27 07:12:33 llm_load_print_meta: arch 2024-01-27 07:12:33 llm_load_print_meta: vocab type 2024-01-27 07:12:33 llm_load_print_meta: n_vocab 2024-01-27 07:12:33 llm_load_print_meta: n_merges 2024-01-27 07:12:33 llm_load_print_meta: n_ctx_train 2024-01-27 07:12:33 llm_load_print_meta: n_embd 2024-01-27 07:12:33 llm_load_print_meta: n_head 2024-01-27 07:12:33 llm_load_print_meta: n_head_kv 2024-01-27 07:12:33 llm_load_print_meta: n_layer 2024-01-27 07:12:33 llm_load_print_meta: n_rot 2024-01-27 07:12:33 llm_load_print_meta: n_gqa 2024-01-27 07:12:33 llm_load_print_meta: f_norm_eps 2024-01-27 07:12:33 llm_load_print_meta: f_norm_rms_eps 2024-01-27 07:12:33 llm_load_print_meta: f_clamp_kqv 2024-01-27 07:12:33 llm_load_print_meta: f_max_alibi_bias 2024-01-27 07:12:33 llm_load_print_meta: n_ff 2024-01-27 07:12:33 llm_load_print_meta: n_expert 2024-01-27 07:12:33 llm_load_print_meta: n_expert_used 2024-01-27 07:12:33 llm_load_print_meta: rope scaling 2024-01-27 07:12:33 llm_load_print_meta: freq_base_train 2024-01-27 07:12:33 llm_load_print_meta: freq_scale_train 2024-01-27 07:12:33 llm_load_print_meta: n_yarn_orig_ctx 2024-01-27 07:12:33 llm_load_print_meta: rope_finetuned 2024-01-27 07:12:33 llm_load_print_meta: model type 2024-01-27 07:12:33 llm_load_print_meta: model ftype 2024-01-27 07:12:33 llm_load_print_meta: model params 2024-01-27 07:12:33 llm_load_print_meta: model size 2024-01-27 07:12:33 llm_load_print_meta: general.name 2024-01-27 07:12:33 llm_load_print_meta: BOS token 2024-01-27 07:12:33 llm_load_print_meta: EOS token 2024-01-27 07:12:33 llm_load_print_meta: UNK token 2024-01-27 07:12:33 llm_load_print_meta: LF token 2024-01-27 07:12:33 llm_load_tensors: ggml ctx size = 2024-01-27 07:12:33 llm_load_tensors: using CUDA 2024-01-27 07:12:33 llm_load_tensors: mem required 2024-01-27 07:12:33 llm_load_tensors: offloading 2024-01-27 07:12:33 llm_load_tensors: offloaded 2024-01-27 07:12:33 llm_load_tensors: VRAM used: 2024-01-27 07:12:51 .................................. 2024-01-27 07:12:51 llama_new_context_with_model: n_ctx 2024-01-27 07:12:51 llama_new_context_with_model: freq_base 2024-01-27 07:12:51 llama_new_context_with_model: 2024-01-27 07:12:51 llama_kv_cache_init: VRAM 2024-01-27 07:12:51 llama_new_context_with_model: KV self size 2024-01-27 07:12:51 llama_build_graph: non-view 2024-01-27 07:12:51 llama_new_context_with_model: 2024-01-27 07:12:52 llama_new_context_with_model: 2024-01-27 07:12:52 llama_new_context_with_model: 2024-01-27 07:12:53 2024/01/27 01:42:53 ext_server_common.go:144: 2024-01-27 07:12:53 2024/01/27 01:42:53 ext_server_common.go:158: 2024-01-27 07:13:14 [GIN] 2024/01/27 - 01:43:14 2024-01-27 07:13:22 2024/01/27 01:43:22 ext_server_common.go:158: 2024-01-27 07:14:30 [GIN] 2024/01/27 - 01:44:30 | 200 | 2024-01-27 07:15:20 2024/01/27 01:45:20 ext_server_common.go:158: ", "~~", "~~", "<0x00>", "<... tokenizer.ggml.scores arr[f32,32000] = [0.000000, 0.000000, 0.000000, 0.0000... tokenizer.ggml.token_type arr[i32,32000] = [2, 3, 3, 6, 6, 6, 6, 6, 6, 6, 6, 6, ... tokenizer.ggml.merges arr[str,58980] = ["▁ t", "i n", "e r", "▁ a", "h e... tokenizer.ggml.bos_token_id u32 = 1 tokenizer.ggml.eos_token_id u32 = 2 tokenizer.ggml.unknown_token_id u32 = 0 tokenizer.ggml.add_bos_token bool = true tokenizer.ggml.add_eos_token bool = false tokenizer.chat_template str = {{ bos_token }}{% for message in mess... general.quantization_version u32 = 2 65 tensors 225 tensors 1 tensors definition check successful ( 259/32000 ). = GGUF V3 (latest) = llama = SPM = 32000 = 0 = 32768 = 4096 = 32 = 8 = 32 = 128 = 4 = 0.0e+00 = 1.0e-05 = 0.0e+00 = 0.0e+00 = 14336 = 0 = 0 = linear = 1000000.0 = 1 = 32768 = unknown = 7B = Q4_0 = 7.24 B = 3.83 GiB (4.54 BPW) = mistralai = 1 '~~' = 2 '~~' = 0 '' = 13 '<0x0A>' 0.11 MiB for GPU acceleration = 2747.67 MiB 10 repeating layers to GPU 10/33 layers to GPU 1170.31 MiB ................................................................. = 2048 = 1000000.0 freq_scale = 1 kv self = 80.00 MB = 256.00 MiB, K (f16): 128.00 MiB, V (f16): 128.00 MiB tensors processed: 676/676 compute buffer total size = 159.19 MiB VRAM scratch buffer: 156.00 MiB total VRAM used: 1406.32 MiB (model: 1170.31 MiB, context: 236.00 MiB) Starting internal llama main loop loaded 0 images | 200 | 43.843368937s | 172.17.0.1 | POST "/api/generate" loaded 0 images 1m7s | 172.17.0.1 | POST "/api/generate" loaded 0 images 90101/f27400ba-e2fe-4a16-a2d2-b661a0567200" alt="1"> 90101/735a8c32-da5a-4652-a2a6-353a75c43798" alt="2">

Jan 27 '24 01:01 sumitsodhi88

I am using old acer Nitro 5 gaming pc with Nvidia 1050 2gb. VRAM as a test bed before scaling. Using the Ollama api for the Anything LLM project both running in docker.

Jan 27 '24 02:01 sumitsodhi88

2024-01-27 07:12:33 llm_load_tensors: offloaded 10/33 layers to GPU

So roughly 1/3 of the model is loaded into GPU, and the remaining 2/3's is on your CPU, and I/O bandwidth between the two can have a significant performance impact. You can try to use a smaller model to try to get more (or ideally all) of it to fit in VRAM on your GPU, or try forcing CPU only and see if running CPU only is actually faster since it cuts out the I/O between system memory and the GPU.

https://github.com/ollama/ollama/blob/main/docs/troubleshooting.md#llm-libraries

Jan 27 '24 15:01 dhiltgen

my gpu has small VRAM 2GB only. But my issue is its not being used fully. Without docker it load 16 layers with docker only 10. CPU only is painfully slow as CPU has other docker image loaded - anythingllm, also cpu is 7th gen i5

Jan 27 '24 16:01 sumitsodhi88

@sumitsodhi88 1050 with 2gb vram isn't going to do LLM serving very well. You'll need a model smaller than 2GB or it won't load all the layers into the GPU. The reason it isn't using all of the vram is likely because of a fixed batch size -- loading another batch would bring the vram use above the available size.

You may want to consider a new system, or try running AVX2 on CPU. It won't be as fast as GPU acceleration, but it'll run faster than base CPU.

Jan 31 '24 01:01 remy415

@sumitsodhi88 we've been adjusting our memory prediction calculations quite a bit over the past few weeks, and while they're still not perfect, we're aiming to get relatively close to saturating the GPU VRAM without overshooting and causing OOMs. My suspicion on differing behavior between local and container is you're probably running different versions of the server in each. Make sure to docker pull ollama/ollama to get the latest image, and check the server logs near the beginning to confirm both your host and container are running the same version. If they're still radically different in the number of layers loaded, please share the two logs so we can see more details.

Jan 31 '24 16:01 dhiltgen

Unfortunately with a 2GB video card there are diminishing returns as to which layers can be offloaded reliably onto the GPU.

I'm going to go ahead and close this for now. I think ollama is getting better at being able to place different layers on the GPU, but beyond a certain point it's difficult to eek out performance on older/low performance cards.

Mar 11 '24 18:03 pdevine

ollama ollama copied to clipboard

Minimal use of GPU in Docker (windows)

ollama
ollama copied to clipboard