DKRL 最終用於實驗測試的數據集（處理后的FB15K，與FB20K）

您好，若冰。

拜讀了您的文章，我受益匪淺。

可否與您共享一下經過處理后的FB15K，與FB20K的數據集？

我在論文里沒有找到太具體的處理數據集的方法，特別是選擇多少關鍵詞作為描述，或者去掉了具體哪些entity。

如果可以直接共享一下最終用於測試的數據集，恐怕會有更多的人樂於引用和進一步研究，也包括我:)

Mar 10 '16 03:03 godfanmiao

您好， FB20k数据下载链接已在README.md中更新。关于数据处理，主要是description上面的预处理，我们仅做了两个简单的处理，在论文模型预处理部分有介绍： 1、小写化并去除所有停用词； 2、将所有描述中出现的entityname看做word，即William Shakespeare --> william_shakespeare 实验结果显示目前的预处理对于结果影响不大，针对不同模型也可能有更合适的预处理方式，所以我们仅给出了原始描述文件：）

Mar 12 '16 02:03 xrb92

多谢若冰。没关系，我很快返校，到时候我们见面聊。

Miao Fan *（范淼）* Google Scholar https://scholar.google.com/citations?user=aPlHReAAAAAJ&hl=en & C.V. https://mlnote.wordpress.com/2015/12/17/bloggers-c-v/

*Part Time Junior Research Scientist;*
Department of Computer Science;
Courant Institute of Mathematical Sciences;
*New York University*;
Room 717, 715 Broadway, New York, NY, 10003, U.S.A.
+1-347-891-8622 (U.S.A.)
&
*Ph.D. Candidate;*
Department of Computer Science and Technology;
*Tsinghua University*;
#14 Zijing Apartment, Tsinghua, Beijing, 100084, China.
+86-13581700448 (P.R.C.)

在 2016年3月11日下午9:28，Ruobing Xie [email protected]写道：

您好， FB20k数据下载链接已在README.md中更新。关于数据处理，主要是description上面的预处理，我们仅做了两个简单的处理，在论文模型预处理部分有介绍： 1、小写化并去除所有停用词； 2、将所有描述中出现的entityname看做word，即William Shakespeare --> william_shakespeare 实验结果显示目前的预处理对于结果影响不大，针对不同模型也可能有更合适的预处理方式，所以我们仅给出了原始描述文件：）

— Reply to this email directly or view it on GitHub https://github.com/xrb92/DKRL/issues/4#issuecomment-195640827.

Mar 12 '16 02:03 godfanmiao

其实我更想具体知道您对FB15K过滤了哪些entity，我希望可以得到十分准确的数据集进行比对。

Miao Fan *（范淼）* Google Scholar https://scholar.google.com/citations?user=aPlHReAAAAAJ&hl=en & C.V. https://mlnote.wordpress.com/2015/12/17/bloggers-c-v/

*Part Time Junior Research Scientist;*
Department of Computer Science;
Courant Institute of Mathematical Sciences;
*New York University*;
Room 717, 715 Broadway, New York, NY, 10003, U.S.A.
+1-347-891-8622 (U.S.A.)
&
*Ph.D. Candidate;*
Department of Computer Science and Technology;
*Tsinghua University*;
#14 Zijing Apartment, Tsinghua, Beijing, 100084, China.
+86-13581700448 (P.R.C.)

在 2016年3月11日下午9:28，Ruobing Xie [email protected]写道：

您好， FB20k数据下载链接已在README.md中更新。关于数据处理，主要是description上面的预处理，我们仅做了两个简单的处理，在论文模型预处理部分有介绍： 1、小写化并去除所有停用词； 2、将所有描述中出现的entityname看做word，即William Shakespeare --> william_shakespeare 实验结果显示目前的预处理对于结果影响不大，针对不同模型也可能有更合适的预处理方式，所以我们仅给出了原始描述文件：）

— Reply to this email directly or view it on GitHub https://github.com/xrb92/DKRL/issues/4#issuecomment-195640827.

Mar 12 '16 16:03 godfanmiao

entity为14,904个，过滤掉的是： 1、没有description的，这个可以对照同时发布的FB15K描述文件确定； 2、预处理后长度过少的，我们去除了长度小于3的entity

Mar 12 '16 16:03 xrb92

最好是有标准的数据集，我们自己处理难免会出一些问题。直接给数据集是再好不过的选择了。

Miao Fan *（范淼）* Google Scholar https://scholar.google.com/citations?user=aPlHReAAAAAJ&hl=en & C.V. https://mlnote.wordpress.com/2015/12/17/bloggers-c-v/

*Part Time Junior Research Scientist;*
Department of Computer Science;
Courant Institute of Mathematical Sciences;
*New York University*;
Room 717, 715 Broadway, New York, NY, 10003, U.S.A.
+1-347-891-8622 (U.S.A.)
&
*Ph.D. Candidate;*
Department of Computer Science and Technology;
*Tsinghua University*;
#14 Zijing Apartment, Tsinghua, Beijing, 100084, China.
+86-13581700448 (P.R.C.)

在 2016年3月12日上午11:59，Ruobing Xie [email protected]写道：

entity为14,904个，过滤掉的是： 1、没有description的，这个可以对照同时发布的FB15K描述文件确定； 2、预处理后长度过少的，我们去除了长度小于3的entity

— Reply to this email directly or view it on GitHub https://github.com/xrb92/DKRL/issues/4#issuecomment-195774951.

Mar 12 '16 17:03 godfanmiao

已更新entity list下载链接包含实验所用的entity列表和其在Freebase中的描述

Mar 13 '16 02:03 xrb92

@xrb92 有个疑问？为什么在使用CNN时，对每个实体的描述要使用其摘要中的实体name？理论上，对于一个实体描述，有很多关键信息：比如实体name、一些关键的谓词（关键）、还有一些kv结构等。

这里用实体name，并通过word2vec来计算entity的预向量，是想捕获出实体间的共现关系吗？

麻烦介绍下，谢谢

Feb 05 '18 07:02 fanfannothing

DKRL DKRL copied to clipboard

最終用於實驗測試的數據集（處理后的FB15K，與FB20K）

DKRL
DKRL copied to clipboard