GPT2-Chinese
GPT2-Chinese copied to clipboard
下载的斗破语料生成为什么会是乱码呢
windows环境 说明里提到的地方下载的斗破语料,生成的sample乱码,请问哪的原因?
======================================== SAMPLE 1 ======================================== 萧炎胜&胜碁碁某蠅&standard hgih hgih&ス&900standard叱珊900腋腋2200ificationм殖殖珊ification╭м趨м趨杠劳м妄趨腋universal眞腋杠腋噔杠мificationм腋
======================================== SAMPLE 2 ======================================== 萧炎倘asus&蠅&碁221м惋惋惯碁烏惋嵊ヶヶ劍ヶ羿蜊蜊朦朦羿怕怕怕嵊ヶヶ惋惋锋廓舱羿羿ヶ惋惋il鼹祇祇祇朦洛羿鼹
斗破苍穹要用train_single.py练的,你再试试看呢?
data/train.json内容是:["train.txt"] 把斗破苍穹的全文放在data/train.txt
train_single.py和train_single.py --raw 均报错 train.py报错,train.py --raw生成的data/tokenized/tokenized_train_0.txt...tokenized_train_99.txt文件全部是0字节
窗口提示的也是乱码,生成保存的文件依然是乱码。但默认的开头“萧炎”这两个字正常.. 请见附件截图,谢谢。
train_single.py运行的记录显示你没有开启--raw,你看看是不是哪里出了差错? 生成乱码是因为没有进行训练,train.py不适用于单个超长文本。
train_single.py开启--raw的时候,提示: IndexError: list index out of range
加我qq看一下
我也遇到相同的一个问题,请问是如何解决的?
using device: cpu
building files
reading lines
0%| | 0/100 [00:00<?, ?it/s]
Traceback (most recent call last):
File "train_single.py", line 227, in <module>
main()
File "train_single.py", line 100, in main
num_pieces=num_pieces)
File "train_single.py", line 32, in build_files
f.write(str(single_ids[-1]))
IndexError: list index out of range
在Windows下训练斗破苍穹的语料,显示乱码,还出现了日文字符:
======================================== SAMPLE 1 ========================================
萧炎vip埵恙miss埵れてbel淘international賑篑淘ddれて駆儀僅遨淘僅crmれて073僅apec apecake餛餛儀ouddayopec language073daybel辑辑opec辑language language073073dayopec辑诤ake
8%|█████████▌ | 4/50 [00:00<00:01, 3 16%|███████████████████▏ | 8/50 [00:0 24%|████████████████████████████▌ | 12 32%|██████████████████████████████████████ 40%|███████████████████████████████████████████████▌ 48%|█████████████████████████████████████████████████████████ 56%|██████████████████████████████████████████████████████████████████▋ 64%|████████████████████████████████████████████████████████████████████████████ 72%|████████████████████████████████████████████████████████████████████████████ 80%|████████████████████████████████████████████████████████████████████████████ 88%|████████████████████████████████████████████████████████████████████████████ 96%|████████████████████████████████████████████████████████████████████████████100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 50/50 [00:01<00:00, 33.53it/s]
======================================== SAMPLE 2 ========================================
萧炎miss駆埵埵miss淘駆stayれてraphれてraph熒駆熒oud寐淘akeれてddinternational駆れて淘淘asれてれてasia鸿ddinternational、駆ddddas opec opec opec as熒ddinternational asiaddas opec駆
8%|█████████▌ | 4/50 [00:00<00:01, 3 16%|███████████████████▏ | 8/50 [00:0 24%|████████████████████████████▌ | 12 32%|██████████████████████████████████████ 40%|███████████████████████████████████████████████▌ 48%|█████████████████████████████████████████████████████████ 56%|██████████████████████████████████████████████████████████████████▋ 64%|████████████████████████████████████████████████████████████████████████████ 72%|████████████████████████████████████████████████████████████████████████████ 80%|████████████████████████████████████████████████████████████████████████████ 88%|████████████████████████████████████████████████████████████████████████████ 96%|████████████████████████████████████████████████████████████████████████████100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 50/50 [00:01<00:00, 33.87it/s]
======================================== SAMPLE 3 ========================================
萧炎さん芡埵miss淘埵駆fcれて淘bel儀ddれて儀れて淘dd儀fcouddayouddaycrm皖raph淘belinternational objectfcdayinternational language opecfcoudopecれて皖れてas淘daynote7oudbel淘language
8%|█████████▌ | 4/50 [00:00<00:01, 3 16%|███████████████████▏ | 8/50 [00:0 24%|████████████████████████████▌ | 12 32%|██████████████████████████████████████ 40%|███████████████████████████████████████████████▌ 48%|█████████████████████████████████████████████████████████ 56%|██████████████████████████████████████████████████████████████████▋ 64%|████████████████████████████████████████████████████████████████████████████ 72%|████████████████████████████████████████████████████████████████████████████ 80%|████████████████████████████████████████████████████████████████████████████ 88%|████████████████████████████████████████████████████████████████████████████ 96%|████████████████████████████████████████████████████████████████████████████100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 50/50 [00:01<00:00, 33.69it/s]
======================================== SAMPLE 4 ========================================
萧炎さん芡miss淘してくたさい♪このfcfcfc淘dd孪raph芡軼軼淘30000daybelraphcardれてbel戚teambel軼opec powerakelanguagebel∼ake細∼∼峰belbel細戚bel∼境境華華
train_single.py开启--raw的时候,提示: IndexError: list index out of range
您好,能说一下问题怎么解决的吗
可能是没训练起来,也可能是训练和生成指定的是不同的词表
可能是没训练起来,也可能是训练和生成指定的是不同的词表
您之前也没有帮他解决这个问题吗
之前遇到过,是词表的问题
之前遇到过,是词表的问题
之前遇到过,是词表的问题
请问那词表是新建还是?
之前遇到过,是词表的问题
之前遇到过,是词表的问题
请问那词表是新建还是?
假如待训练的语料中的所有词汇都在预设字典里,那么,可以用预先有的,不用重新建立;如果不是那么重新搞一个。还有,就是训练的时间要够长,语料要够多。
之前遇到过,是词表的问题
之前遇到过,是词表的问题
请问那词表是新建还是?
假如待训练的语料中的所有词汇都在预设字典里,那么,可以用预先有的,不用重新建立;如果不是那么重新搞一个。还有,就是训练的时间要够长,语料要够多。
训练时间够长是哪里可以设置吗
data/train.json内容是:["train.txt"] 把斗破苍穹的全文放在data/train.txt
train_single.py和train_single.py --raw 均报错 train.py报错,train.py --raw生成的data/tokenized/tokenized_train_0.txt...tokenized_train_99.txt文件全部是0字节
窗口提示的也是乱码,生成保存的文件依然是乱码。但默认的开头“萧炎”这两个字正常.. 请见附件截图,谢谢。
![]()
![]()
![]()
![]()
![]()
想問你 tokenized_train_.txt 那些檔案 哪來的