beyondguo
beyondguo
贴一下相关代码,不然没法给你debug
我试了试,好像没问题:  你这里把 `max_new_tokens`设大一点试试? 另外,我目前提供的代码里,在checkpoint文件夹里是没有 adapter_config.json 文件的,如果直接加载这个 checkpoint 文件夹,按道理会报错,你需要手动把外面文件夹中的 adapter_config.json 文件给拷贝进去,才能加载 checkpoint 文件。
可以,近期试一试,如果是LLaMa架构的应该改起来很容易,你可以先根据baichuan的来改一下
完整报错,以及报错对应的代码片段贴一下
参考一下 https://github.com/THUDM/ChatGLM2-6B/issues/51#issuecomment-1608795977
Same problem.
感谢您认真的阅读和细致的研究!最近由于我在忙着做另一个研究,所以一直没有时间看issue,你提的这个问题确实值得思考,在实验方面,我确实没有尝试使用0.9这么大的smoothing,而是采用了其他工作中常见的设置。我会抽空对你提到的这些实验/设置进行探究,期待后面跟您的进一步探讨!
如果多标签的话,LCM的部分,输出的就不能是一个概率分布,也要改成多个sigmoid,这个我还没试过,你可以试一试,有问题可以进一步交流~
那应该不是代码的问题,你可以再检查一下环境配置,或者看看其他的keras程序能否调用gpu。keras应该在环境配置好之后自动调用gpu的
Oh, thanks for pointing that out. Those "strange" codes were just some experimental scripts for other attempts. I just made a new commit to remove them, please try again.