DKRL
DKRL copied to clipboard
最終用於實驗測試的數據集(處理后的FB15K,與FB20K)
您好,若冰。
拜讀了您的文章,我受益匪淺。
可否與您共享一下經過處理后的FB15K,與FB20K的數據集?
我在論文里沒有找到太具體的處理數據集的方法,特別是選擇多少關鍵詞作為描述,或者去掉了具體哪些entity。
如果可以直接共享一下最終用於測試的數據集,恐怕會有更多的人樂於引用和進一步研究,也包括我:)
您好, FB20k数据下载链接已在README.md中更新。 关于数据处理,主要是description上面的预处理,我们仅做了两个简单的处理,在论文模型预处理部分有介绍: 1、小写化并去除所有停用词; 2、将所有描述中出现的entityname看做word,即William Shakespeare --> william_shakespeare 实验结果显示目前的预处理对于结果影响不大,针对不同模型也可能有更合适的预处理方式,所以我们仅给出了原始描述文件:)
多谢若冰。没关系,我很快返校,到时候我们见面聊。
Miao Fan *(范淼)* Google Scholar https://scholar.google.com/citations?user=aPlHReAAAAAJ&hl=en & C.V. https://mlnote.wordpress.com/2015/12/17/bloggers-c-v/
*Part Time Junior Research Scientist;*
Department of Computer Science;
Courant Institute of Mathematical Sciences;
*New York University*;
Room 717, 715 Broadway, New York, NY, 10003, U.S.A.
+1-347-891-8622 (U.S.A.)
&
*Ph.D. Candidate;*
Department of Computer Science and Technology;
*Tsinghua University*;
#14 Zijing Apartment, Tsinghua, Beijing, 100084, China.
+86-13581700448 (P.R.C.)
在 2016年3月11日 下午9:28,Ruobing Xie [email protected]写道:
您好, FB20k数据下载链接已在README.md中更新。 关于数据处理,主要是description上面的预处理,我们仅做了两个简单的处理,在论文模型预处理部分有介绍: 1、小写化并去除所有停用词; 2、将所有描述中出现的entityname看做word,即William Shakespeare --> william_shakespeare 实验结果显示目前的预处理对于结果影响不大,针对不同模型也可能有更合适的预处理方式,所以我们仅给出了原始描述文件:)
— Reply to this email directly or view it on GitHub https://github.com/xrb92/DKRL/issues/4#issuecomment-195640827.
其实我更想具体知道您对FB15K过滤了哪些entity,我希望可以得到十分准确的数据集进行比对。
Miao Fan *(范淼)* Google Scholar https://scholar.google.com/citations?user=aPlHReAAAAAJ&hl=en & C.V. https://mlnote.wordpress.com/2015/12/17/bloggers-c-v/
*Part Time Junior Research Scientist;*
Department of Computer Science;
Courant Institute of Mathematical Sciences;
*New York University*;
Room 717, 715 Broadway, New York, NY, 10003, U.S.A.
+1-347-891-8622 (U.S.A.)
&
*Ph.D. Candidate;*
Department of Computer Science and Technology;
*Tsinghua University*;
#14 Zijing Apartment, Tsinghua, Beijing, 100084, China.
+86-13581700448 (P.R.C.)
在 2016年3月11日 下午9:28,Ruobing Xie [email protected]写道:
您好, FB20k数据下载链接已在README.md中更新。 关于数据处理,主要是description上面的预处理,我们仅做了两个简单的处理,在论文模型预处理部分有介绍: 1、小写化并去除所有停用词; 2、将所有描述中出现的entityname看做word,即William Shakespeare --> william_shakespeare 实验结果显示目前的预处理对于结果影响不大,针对不同模型也可能有更合适的预处理方式,所以我们仅给出了原始描述文件:)
— Reply to this email directly or view it on GitHub https://github.com/xrb92/DKRL/issues/4#issuecomment-195640827.
entity为14,904个,过滤掉的是: 1、没有description的,这个可以对照同时发布的FB15K描述文件确定; 2、预处理后长度过少的,我们去除了长度小于3的entity
最好是有标准的数据集, 我们自己处理难免会出一些问题。 直接给数据集是再好不过的选择了。
Miao Fan *(范淼)* Google Scholar https://scholar.google.com/citations?user=aPlHReAAAAAJ&hl=en & C.V. https://mlnote.wordpress.com/2015/12/17/bloggers-c-v/
*Part Time Junior Research Scientist;*
Department of Computer Science;
Courant Institute of Mathematical Sciences;
*New York University*;
Room 717, 715 Broadway, New York, NY, 10003, U.S.A.
+1-347-891-8622 (U.S.A.)
&
*Ph.D. Candidate;*
Department of Computer Science and Technology;
*Tsinghua University*;
#14 Zijing Apartment, Tsinghua, Beijing, 100084, China.
+86-13581700448 (P.R.C.)
在 2016年3月12日 上午11:59,Ruobing Xie [email protected]写道:
entity为14,904个,过滤掉的是: 1、没有description的,这个可以对照同时发布的FB15K描述文件确定; 2、预处理后长度过少的,我们去除了长度小于3的entity
— Reply to this email directly or view it on GitHub https://github.com/xrb92/DKRL/issues/4#issuecomment-195774951.
已更新entity list下载链接 包含实验所用的entity列表和其在Freebase中的描述
@xrb92 有个疑问?为什么在使用CNN时,对每个实体的描述要使用其摘要中的实体name? 理论上,对于一个实体描述,有很多关键信息:比如实体name、一些关键的谓词(关键)、还有一些kv结构等。
这里用实体name,并通过word2vec来计算entity的预向量,是想捕获出实体间的共现关系吗?
麻烦介绍下,谢谢