[功能建议] EPUB 或者 TXT 生成的时候添加机翻标记
本建议希望能在机翻站的 epub/txt 生成中加入一定的标记文本或元素(下称机翻标记)来表明该文件文本由机翻产生。
背景
在后 AI 时代,已经证明 AI 生成内容会对 AI 训练产生破坏性影响:参考。因此不可否认,机翻站产出的大量机翻内容同样会严重污染当前的中日对照文本数据。
然而当前机翻站产生的epub/txt仅在文件名上具有辨别性,例如 jp-zh.Ys.xxxx.epub,而文件名在文件传播中容易遭到有意/无意的篡改。在这种情况下,机翻站的 AI 生成文件极有可能和正常译者的翻译文件混杂在一起无法区分。
为此,本建议希望能在机翻站的 epub/txt 生成中加入一定的标记文本或元素(下称机翻标记)来表明该文件文本由机翻产生,以此来帮助未来的读者和开发者鉴别 AI 生成文本,防止潜在的 AI 数据污染。
可能的方法:
隐式展现
在 meta 信息中表明是机翻,例如 container.xml 中或者 style.css 中加入机翻标记。
好处: 不会产生可见的文本,因此可以减少一些 epub 二次打包的用户/reseller 删除标记的可能性。
此假设基于 reseller 只在意可见得版权标记。但实际观察发现大部分 reseller 也不会抹除有高等级墙的站点的版权标记(例如熟悉的轻之国度等)
不足: 无法应用于 txt 等纯文本格式中。用户无法用简单的方法判断出这是机翻。
显式展现
额外添加版权页,在版权页中标注本文件由机翻产生。
好处: 能够给用户或者 AI 研究员最明确的提示。
不足: 提高了会被 reseller 抹掉的风险,特别是机翻伪装正经翻译的那些 reseller。
可能的问题
署名和来源判断
在当前没有第二个机翻站的情况下,使用机翻标记本身会为 epub 提供溯源的可能,导致 epub/txt 关联到机翻站本身,增大了版权风险。
嗯,我挺支持这个的。不过主要是因为,我收集东西的时候,反而比较希望能够看到东西的出处。
不过,我倒是反而不是特别担心AI生成内容污染AI训练材料的问题。或者说,我感觉有些担心也没太大用处。因为无论如何都会混进去一些的。
而且,我感觉AI喂AI的问题应该不会太大。因为这也不是纯粹的完全没有筛选的AI输出结果直接喂进去当成了新资料,而是已经被 “有人觉得满意到可以留在绿站上” 筛选过一次了,然后又被 “用这个术语表来翻译的话翻译结果还算满意”。所以,已经算是 RLHF 了一次?
不过当然,如果能知道资料的出处是绿站,训练的时候也会很有帮助。
我觉得显式隐式都可以加。
显式:epub在目录上,txt在标题下,加一行“※ 本内容为机器翻译”。 隐式:epub在meta里面也加一个元素。
web小说文件可以搞,文库和本地在epub解析升级前不好搞。
@kurikomoe 你有兴趣搞web吗?
我觉得显式隐式都可以加。
显式:epub在目录上,txt在标题下,加一行“※ 本内容为机器翻译”。 隐式:epub在meta里面也加一个元素。
web小说文件可以搞,文库和本地在epub解析升级前不好搞。
@kurikomoe 你有兴趣搞web吗?
这部分不是在后端生成 epub/txt 阶段做的么?(我只看过文库那边)
这部分不是在后端生成 epub/txt 阶段做的么?(我只看过文库那边)
是后端,我意思是web小说的后端文件
显式:epub在目录上,txt在标题下,加一行“※ 本内容为机器翻译”。
啊,题外话,不过可以加两行么?什么都可以,比如:
※ 本内容为机器翻译
※ 翻译来自绿站
因为我想保持,让中日双语的txt文件永远奇数行是中文,偶数行是日文。
因为我想以后做一个像绿站的一样的阅读器,奇数和偶数行的颜色深浅不一样。
如果加入一行注释导致错行了就很难受。
※ 翻译来自绿站
署名于情于理都不合适
因为我想以后做一个像绿站的一样的阅读器,奇数和偶数行的颜色深浅不一样。
想做TXT阅读器吗?支持复杂预设格式的TXT阅读器不是好思路,吃力不讨好,做个TXT转EPUB可能更好点。
另外即使没有这行,TXT也不是奇偶稳定对应的,因为空行不会x2。
啊,丸啦!
On Thu, Mar 27, 2025 at 7:42 PM FishHawk @.***> wrote:
※ 翻译来自绿站
署名于情于理都不合适
因为我想以后做一个像绿站的一样的阅读器,奇数和偶数行的颜色深浅不一样。
想做TXT阅读器吗?支持复杂预设格式的TXT阅读器不是好思路,吃力不讨好,做个TXT转EPUB可能更好点。
另外即使没有这行,TXT也不是奇偶稳定对应的,因为空行不会x2。
— Reply to this email directly, view it on GitHub https://github.com/FishHawk/auto-novel/issues/134#issuecomment-2760035907, or unsubscribe https://github.com/notifications/unsubscribe-auth/ALILEDA3T2METGD3VUHKIPL2WSZIDAVCNFSM6AAAAABQQVGALGVHI2DSMVQWIX3LMV43OSLTON2WKQ3PNVWWK3TUHMZDONRQGAZTKOJQG4 . You are receiving this because you commented.Message ID: @.***> [image: FishHawk]FishHawk left a comment (FishHawk/auto-novel#134) https://github.com/FishHawk/auto-novel/issues/134#issuecomment-2760035907
※ 翻译来自绿站
署名于情于理都不合适
因为我想以后做一个像绿站的一样的阅读器,奇数和偶数行的颜色深浅不一样。
想做TXT阅读器吗?支持复杂预设格式的TXT阅读器不是好思路,吃力不讨好,做个TXT转EPUB可能更好点。
另外即使没有这行,TXT也不是奇偶稳定对应的,因为空行不会x2。
— Reply to this email directly, view it on GitHub https://github.com/FishHawk/auto-novel/issues/134#issuecomment-2760035907, or unsubscribe https://github.com/notifications/unsubscribe-auth/ALILEDA3T2METGD3VUHKIPL2WSZIDAVCNFSM6AAAAABQQVGALGVHI2DSMVQWIX3LMV43OSLTON2WKQ3PNVWWK3TUHMZDONRQGAZTKOJQG4 . You are receiving this because you commented.Message ID: @.***>
这部分不是在后端生成 epub/txt 阶段做的么?(我只看过文库那边)
是后端,我意思是web小说的后端文件
恩,我来叭,我之前也在处理后端文库 epub 生成部分没能正确处理部分文库 epub 的格式问题(ios 端的阅读)。