Information-Extraction-Chinese icon indicating copy to clipboard operation
Information-Extraction-Chinese copied to clipboard

训练数据获取

Open befeng opened this issue 7 years ago • 7 comments

请问一下,你这个训练数据是怎么获取的。

befeng avatar Dec 06 '17 06:12 befeng

大部分都是从别的开源项目中找到的....

crownpku avatar Dec 06 '17 06:12 crownpku

在RE_BGRU_2ATT文件中,首先初始化,执行initial.py文件,但是文件中要打开./data/train_q&a.txt文件,但是并没有该文件,请问这也是从别的项目中找的么?还是您忘记放进去了?

BoKaiSun avatar Dec 13 '17 01:12 BoKaiSun

这部分数据是在initial.py中生成写入的,第217行:

print('organizing train data')
    f = open('./data/train_q&a.txt', 'w', encoding='utf-8')
    temp = 0
    for i in train_sen:
        if len(train_ans[i]) != len(train_sen[i]):
            print('ERROR')
        lenth = len(train_ans[i])
        for j in range(lenth):
            train_x.append(train_sen[i][j])
            train_y.append(train_ans[i][j])
            f.write(str(temp) + '\t' + i[0] + '\t' + i[1] + '\t' + str(np.argmax(train_ans[i][j])) + '\n')
            temp += 1
    f.close()

你的报错,是不是因为你没有权限生成/data这个文件夹吗?

crownpku avatar Dec 13 '17 02:12 crownpku

我看不像是没有权限,因为我无论是通过桌面创建还是命令行创建data文件夹都没有问题.所有信息如下: linux@linux:~/github_test/Information-Extraction-Chinese/RE_BGRU_2ATT$ python initial.py reading word embedding data... reading relation to id reading train data... reading test data ... organizing train data Traceback (most recent call last): File "initial.py", line 352, in <module> init() File "initial.py", line 217, in init f = open('./data/train_q&a.txt', 'w', encoding='utf-8') FileNotFoundError: [Errno 2] No such file or directory: './data/train_q&a.txt'

BoKaiSun avatar Dec 13 '17 02:12 BoKaiSun

你看到这一句是'w'的写入。 你试下,自己建一个data文件夹,再在里面建一个假的train_q&a.txt,然后再试下?

另一个可能是不是因为&这个符号的问题?如果上面建议不行的话,你试下把相关代码的&都replace成比如_这样再试下?

crownpku avatar Dec 13 '17 02:12 crownpku

很感谢!手动创建就好了......

BoKaiSun avatar Dec 13 '17 02:12 BoKaiSun

能提供一个step by step的教程就好了,这样我们菜鸟可以自行做一些训练。对我来说,数据获取反而更容易些。

forconz avatar Sep 14 '18 17:09 forconz