frob comments

Results 849 comments of


                                            frob

Performance Regression on Apple Silicon M1: GPU → CPU Fallback in v0.12.9 (works correctly in v0.12.5)

From the logs, Flash Attention is enabled in 0.12.10 but not 0.12.5. Try setting `OLLAMA_FLASH_ATTENTION=0` in the server environment.

Performance Regression on Apple Silicon M1: GPU → CPU Fallback in v0.12.9 (works correctly in v0.12.5)

Log?

Feature Request: MiniCPM 2.6 model support?

https://github.com/ggerganov/llama.cpp/pull/8967

Ollama uses CPU only after upgrading to CUDA 12.8

[Server logs](https://github.com/ollama/ollama/blob/main/docs/troubleshooting.md#how-to-troubleshoot-issues) will aid in debugging.

support for qwen3-embedding and qwen3-reranker models

``` ollama pull hf.co/Qwen/Qwen3-Embedding-0.6B-GGUF:Q8_0 ``` ollama doesn't currently support ranking models, #3368.

support for qwen3-embedding and qwen3-reranker models

Just import it as show in https://github.com/ollama/ollama/issues/10989#issuecomment-2946454983.

support for qwen3-embedding and qwen3-reranker models

No. https://arxiv.org/abs/1708.03629

support for qwen3-embedding and qwen3-reranker models

A model needs to have a `pooling_type` field in the KV metadata in order to have `embedding` as a listed capability. That's a part of the GGUF file, there's no...

support for qwen3-embedding and qwen3-reranker models

qwen3 embedding is already supported.

support for qwen3-embedding and qwen3-reranker models

Use the /embed endpoint.