DeepSeek-Coder icon indicating copy to clipboard operation
DeepSeek-Coder copied to clipboard

我现在想使用ollama加载这个模型,但是我无法转换tokenizer.model

Open bambooqj opened this issue 2 years ago • 4 comments

虽然问题有点2,但是,我希望可以提供一下转换方法,或者tokenizer.model 文件.

bambooqj avatar Nov 06 '23 08:11 bambooqj

You can directly load the model from GGUF. The GGUF models are here: https://huggingface.co/TheBloke/deepseek-coder-6.7B-instruct-GGUF

pkuzqh avatar Nov 06 '23 09:11 pkuzqh

最近很多人问这个问题,我们正在研究放一个正式的 tokenizer.model 出来。着急的话可以先用 TheBloke 转好的模型,但他的分词结果和我们应该是有一些差异的,所以效果应该会比用官方 python 代码跑出来的结果差一些。

soloice avatar Nov 07 '23 11:11 soloice

可能也是没有tokenizer model的原因,加载出来的tokenizer是没有unk_token的?

JianqiaoLu avatar Nov 08 '23 13:11 JianqiaoLu

please provide the tokeniser.model files for download.

twobob avatar Nov 10 '23 03:11 twobob