Luotuo-Chinese-LLM issues

看了生成的灵狐冲的数据，想知道jsonl是通过哪个程序产出的？后面的那一列base64编码是什么内容？

https://huggingface.co/datasets/chengli-thu/yuebuqun/viewer/default/train?p=1&row=166 ![image](https://github.com/LC1332/Luotuo-Chinese-LLM/assets/421034/0428af23-40ca-4b0b-ad7f-e35fd0b50190) 谢谢，刚开始看这个项目，还没有找到如何启动

wuyeguo

silk-road/alpaca-data-gpt4-chinese的中文数据的制作方式

感谢各位大佬对中文大语言模型社区的贡献！！我在huggingface中找到一份数据集silk-road/alpaca-data-gpt4-chinese（https://huggingface.co/datasets/silk-road/alpaca-data-gpt4-chinese），它的翻译质量和格式处理很棒，我想要在我的研究中使用它，但是遗憾的是我没有找到相关的详细说明。我想询问这份数据集的中文部分的制作方式，它看上去是由英文部分翻译而来的，如果是，我想请问翻译使用的模型是什么呢？是GPT3.5或者GPT-4吗？如果有更详细的说明，十分期待您可以帮忙指明它的位置！！

YanqiDai

您提供的驼铃C colab代码运行报错

运行下面单元格时： torch.set_default_tensor_type(torch.cuda.HalfTensor) tokenizer = AutoTokenizer.from_pretrained("THUDM/chatglm-6b", trust_remote_code=True) model = AutoModel.from_pretrained( "THUDM/chatglm-6b", trust_remote_code=True, device_map=DeviceMap("ChatGLM").get() ) 出现报错： AttributeError Traceback (most recent call last) [](https://localhost:8080/#) in () 1 torch.set_default_tensor_type(torch.cuda.HalfTensor) 2 ----> 3 tokenizer =...

HeroSong666

知识库相关的技术方案讨论

5

# 基于向量化和大型语言模型的知识库与交互系统各位见笑。我就是一菜鸡，下文如果说得不对的地方请指正，莫要见怪。就目前而言，各类开源大语言模型最大的使用方向就是知识库、问答系统等垂直领域。目前的解决方案有二： ## 1、模型外挂知识库，比如【闻达】。优点：技术比较简单，实用性比较强。缺点：受模型token限制，自然语言文本信息承载量也比较低，能处理的信息有限，难以整合大量信息。 ## 2、模型微调优点：专业，准确，受限制小。缺点：我看了charglm的lssues，貌似成功的是凤翎毛角。绝大部分都把模型搞爆了。要求太专业。我有一个不成熟的想法，供大家探讨！自然语言直接与模型对话，只适合人机交互。其实并不适合信息存储和大语言模型运算。效率相对比较高的方案是知识图谱、或直接向量交互。但这种方案对于人类极不友好。现在的可行的解决方案是使用Milvus作为知识库的检索引擎。 ### 1、预处理阶段： #### 1.1 首先用text2vec或其他技术转换为向量，存入Milvus，作为知识库。 ### 2、询问阶段： #### 2.1 预处理用户交互时，先用text2vec转换问题为向量，在 Milvus中查询，并将结果的文本内容转换为自然语言。 ####...

maxadc

请问WizardLM的数据是爬取的GPT4吗？

3

Hello，感谢您的工作，请问WizardLM的进化指令翻译质量如何，有经过过滤吗？另外回答是爬取的GPT4还是GPT3.5吗？谢谢回复～

AceCHQ

是否会有deepspeed加速训练和推理过程呢？

5

现在用tuoling摘要，每个对话需要运行15s才能有结果，希望后续能推出多gpu加速后的推理。

heyday111

Luotuo-Chinese-LLM
Luotuo-Chinese-LLM copied to clipboard

Metadata

看了生成的灵狐冲的数据，想知道jsonl是通过哪个程序产出的？后面的那一列base64编码是什么内容？

silk-road/alpaca-data-gpt4-chinese的中文数据的制作方式

您提供的驼铃C colab代码运行报错

知识库相关的技术方案讨论

请问WizardLM的数据是爬取的GPT4吗？

是否会有deepspeed加速训练和推理过程呢？

← Metadata

Owner

Metadata

Luotuo-Chinese-LLM Luotuo-Chinese-LLM copied to clipboard

Metadata

看了生成的灵狐冲的数据，想知道jsonl是通过哪个程序产出的？后面的那一列base64编码是什么内容？

silk-road/alpaca-data-gpt4-chinese的中文数据的制作方式

您提供的驼铃C colab代码运行报错

知识库相关的技术方案讨论

请问WizardLM的数据是爬取的GPT4吗？

是否会有deepspeed加速训练和推理过程呢？

← Metadata

Owner

Metadata

Luotuo-Chinese-LLM
Luotuo-Chinese-LLM copied to clipboard