GPT2-Chinese icon indicating copy to clipboard operation
GPT2-Chinese copied to clipboard

下载的斗破语料生成为什么会是乱码呢

Open cuyoo opened this issue 5 years ago • 15 comments

windows环境 说明里提到的地方下载的斗破语料,生成的sample乱码,请问哪的原因?

======================================== SAMPLE 1 ======================================== 萧炎胜&胜碁碁某蠅&standard hgih hgih&ス&900standard叱珊900腋腋2200ificationм殖殖珊ification╭м趨м趨杠劳м妄趨腋universal眞腋杠腋噔杠мificationм腋

======================================== SAMPLE 2 ======================================== 萧炎倘asus&蠅&碁221м惋惋惯碁烏惋嵊ヶヶ劍ヶ羿蜊蜊朦朦羿怕怕怕嵊ヶヶ惋惋锋廓舱羿羿ヶ惋惋il鼹祇祇祇朦洛羿鼹

cuyoo avatar Oct 10 '19 07:10 cuyoo

斗破苍穹要用train_single.py练的,你再试试看呢?

Morizeyao avatar Oct 10 '19 07:10 Morizeyao

data/train.json内容是:["train.txt"] 把斗破苍穹的全文放在data/train.txt

train_single.py和train_single.py --raw 均报错 train.py报错,train.py --raw生成的data/tokenized/tokenized_train_0.txt...tokenized_train_99.txt文件全部是0字节

窗口提示的也是乱码,生成保存的文件依然是乱码。但默认的开头“萧炎”这两个字正常.. 请见附件截图,谢谢。

1 2 3 4-0 4-1

5-0 5-1

cuyoo avatar Oct 11 '19 02:10 cuyoo

train_single.py运行的记录显示你没有开启--raw,你看看是不是哪里出了差错? 生成乱码是因为没有进行训练,train.py不适用于单个超长文本。

Morizeyao avatar Oct 11 '19 02:10 Morizeyao

train_single.py开启--raw的时候,提示: IndexError: list index out of range

cuyoo avatar Oct 11 '19 02:10 cuyoo

加我qq看一下

Morizeyao avatar Oct 11 '19 02:10 Morizeyao

我也遇到相同的一个问题,请问是如何解决的?

using device: cpu
building files
reading lines
  0%|                                                                                                                               | 0/100 [00:00<?, ?it/s]
Traceback (most recent call last):
  File "train_single.py", line 227, in <module>
    main()
  File "train_single.py", line 100, in main
    num_pieces=num_pieces)
  File "train_single.py", line 32, in build_files
    f.write(str(single_ids[-1]))
IndexError: list index out of range

AaronZhangL avatar Oct 14 '19 14:10 AaronZhangL

在Windows下训练斗破苍穹的语料,显示乱码,还出现了日文字符:


======================================== SAMPLE 1 ========================================

萧炎vip埵恙miss埵れてbel淘international賑篑淘ddれて駆儀僅遨淘僅crmれて073僅apec apecake餛餛儀ouddayopec language073daybel辑辑opec辑language language073073dayopec辑诤ake
  8%|█████████▌                                                                                                              | 4/50 [00:00<00:01, 3 16%|███████████████████▏                                                                                                    | 8/50 [00:0 24%|████████████████████████████▌                                                                                          | 12 32%|██████████████████████████████████████                                                                             40%|███████████████████████████████████████████████▌                                                         48%|█████████████████████████████████████████████████████████                                       56%|██████████████████████████████████████████████████████████████████▋                   64%|████████████████████████████████████████████████████████████████████████████ 72%|████████████████████████████████████████████████████████████████████████████ 80%|████████████████████████████████████████████████████████████████████████████ 88%|████████████████████████████████████████████████████████████████████████████ 96%|████████████████████████████████████████████████████████████████████████████100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 50/50 [00:01<00:00, 33.53it/s]
======================================== SAMPLE 2 ========================================

萧炎miss駆埵埵miss淘駆stayれてraphれてraph熒駆熒oud寐淘akeれてddinternational駆れて淘淘asれてれてasia鸿ddinternational、駆ddddas opec opec opec as熒ddinternational asiaddas opec駆
  8%|█████████▌                                                                                                              | 4/50 [00:00<00:01, 3 16%|███████████████████▏                                                                                                    | 8/50 [00:0 24%|████████████████████████████▌                                                                                          | 12 32%|██████████████████████████████████████                                                                             40%|███████████████████████████████████████████████▌                                                         48%|█████████████████████████████████████████████████████████                                       56%|██████████████████████████████████████████████████████████████████▋                   64%|████████████████████████████████████████████████████████████████████████████ 72%|████████████████████████████████████████████████████████████████████████████ 80%|████████████████████████████████████████████████████████████████████████████ 88%|████████████████████████████████████████████████████████████████████████████ 96%|████████████████████████████████████████████████████████████████████████████100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 50/50 [00:01<00:00, 33.87it/s]
======================================== SAMPLE 3 ========================================

萧炎さん芡埵miss淘埵駆fcれて淘bel儀ddれて儀れて淘dd儀fcouddayouddaycrm皖raph淘belinternational objectfcdayinternational language opecfcoudopecれて皖れてas淘daynote7oudbel淘language
  8%|█████████▌                                                                                                              | 4/50 [00:00<00:01, 3 16%|███████████████████▏                                                                                                    | 8/50 [00:0 24%|████████████████████████████▌                                                                                          | 12 32%|██████████████████████████████████████                                                                             40%|███████████████████████████████████████████████▌                                                         48%|█████████████████████████████████████████████████████████                                       56%|██████████████████████████████████████████████████████████████████▋                   64%|████████████████████████████████████████████████████████████████████████████ 72%|████████████████████████████████████████████████████████████████████████████ 80%|████████████████████████████████████████████████████████████████████████████ 88%|████████████████████████████████████████████████████████████████████████████ 96%|████████████████████████████████████████████████████████████████████████████100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 50/50 [00:01<00:00, 33.69it/s]
======================================== SAMPLE 4 ========================================

萧炎さん芡miss淘してくたさい♪このfcfcfc淘dd孪raph芡軼軼淘30000daybelraphcardれてbel戚teambel軼opec powerakelanguagebel∼ake細∼∼峰belbel細戚bel∼境境華華

AaronZhangL avatar Oct 14 '19 15:10 AaronZhangL

train_single.py开启--raw的时候,提示: IndexError: list index out of range

您好,能说一下问题怎么解决的吗

Cestbon123 avatar Dec 05 '19 08:12 Cestbon123

可能是没训练起来,也可能是训练和生成指定的是不同的词表

Morizeyao avatar Dec 07 '19 10:12 Morizeyao

可能是没训练起来,也可能是训练和生成指定的是不同的词表

您之前也没有帮他解决这个问题吗

Cestbon123 avatar Dec 08 '19 12:12 Cestbon123

之前遇到过,是词表的问题

ScottishFold007 avatar Feb 16 '20 08:02 ScottishFold007

之前遇到过,是词表的问题

之前遇到过,是词表的问题

请问那词表是新建还是?

jxyyu1997 avatar Feb 20 '20 03:02 jxyyu1997

之前遇到过,是词表的问题

之前遇到过,是词表的问题

请问那词表是新建还是?

假如待训练的语料中的所有词汇都在预设字典里,那么,可以用预先有的,不用重新建立;如果不是那么重新搞一个。还有,就是训练的时间要够长,语料要够多。

ScottishFold007 avatar Feb 20 '20 04:02 ScottishFold007

之前遇到过,是词表的问题

之前遇到过,是词表的问题

请问那词表是新建还是?

假如待训练的语料中的所有词汇都在预设字典里,那么,可以用预先有的,不用重新建立;如果不是那么重新搞一个。还有,就是训练的时间要够长,语料要够多。

训练时间够长是哪里可以设置吗

Halfwaygo avatar Feb 27 '20 06:02 Halfwaygo

data/train.json内容是:["train.txt"] 把斗破苍穹的全文放在data/train.txt

train_single.py和train_single.py --raw 均报错 train.py报错,train.py --raw生成的data/tokenized/tokenized_train_0.txt...tokenized_train_99.txt文件全部是0字节

窗口提示的也是乱码,生成保存的文件依然是乱码。但默认的开头“萧炎”这两个字正常.. 请见附件截图,谢谢。

1 2 3 4-0 4-1

5-0 5-1

想問你 tokenized_train_.txt 那些檔案 哪來的

ken00335 avatar Mar 09 '20 17:03 ken00335