neavo comments

Results 89 comments of


                                            neavo

请求加入严格译文字数少于等于原文字符的参数，截断太折磨了

> > LLM 并不是特别擅长处理精确的数字，所以最好还是跑完以后再手工或者通过脚本对翻译结果进行后处理 > > 用se倒是可以强行截断对应字数，出现说一半没了的情况。就是大多数行都得重新整理语句手打才行。主要是bin文本，不破解程序只能是做截断了，不知道目前遇到这个情况一般是怎么做？看游戏引擎是否支持译文比原文行数更多，支持就很简单，在合适的位置插入一个换行就可以了，不支持那就只能重新润色了数量多的话可以先把这部分文本找出来，然后再让 AI 帮你保持原意的情况下重新精简润色，然后再想办法塞回去

[功能請求]文本重复导入问题

下个版本加个开关

[功能請求]文本重复导入问题

已完成 [MANUAL_BUILD_v0.28.2](https://github.com/neavo/LinguaGacha/releases/tag/MANUAL_BUILD_v0.28.2)

Very high memory usage for a small model

试一下： ```yaml packing: True ``` 这似乎是一个BUG，如果不开启 packing，多少显存都会用完可能还跟其他的参数有关

不开启 packing 的话，似乎不论多少显存都会被吃完

> 感觉是你的样本长度不均匀，你可以看看是不是有某些训练样本是超长的不是这个问题，应该是BUG，理由： 1、最长的条目也不过700t出头 2、加载数据是随机的，但是每次启动大概都在10多步的时候爆显存，是相对固定的 3、在不补齐的时候，1bs也会爆，直接按768（超过最长的条目）补齐的话，4bs显存还有剩余

不开启 packing 的话，似乎不论多少显存都会被吃完

> 700t > > > > 感觉是你的样本长度不均匀，你可以看看是不是有某些训练样本是超长的 > > > > > > 不是这个问题，应该是BUG，理由： 1、最长的条目也不过700t出头 2、加载数据是随机的，但是每次启动大概都在10多步的时候爆显存，是相对固定的 3、在不补齐的时候，1bs也会爆，直接按768（超过最长的条目）补齐的话，4bs显存还有剩余 > > 700t是指？印象中pack是按max len补齐后截断的，非pack是直接按max len截断的，好像没有单独控制pack长度的参数？ 700 token，cut off len 只要长度比最长的语料还长，那么就只会补齐不会截断了吧，我没看源码，不过我猜应该跟tfr原始的接口是一样的

neavo

请求加入严格译文字数少于等于原文字符的参数，截断太折磨了

[功能請求]文本重复导入问题

[功能請求]文本重复导入问题

Very high memory usage for a small model

不开启 packing 的话，似乎不论多少显存都会被吃完

不开启 packing 的话，似乎不论多少显存都会被吃完

【许愿功能】对文件夹内的批量生成术语表

部署模型后启动报错：main: couldn't bind HTTP server socket, hostname: 0.0.0.0, port: 8080

ubuntu24.04.1版本不再支持python2.7

ubuntu24.04.1版本不再支持python2.7