Wikia-and-Wikipedia-EL-Dataset-Creator icon indicating copy to clipboard operation
Wikia-and-Wikipedia-EL-Dataset-Creator copied to clipboard

You can create datasets from Wikia/Wikipedia that can be used for entity recognition and Entity Linking. Dumps for ja-wiki and VTuber-wiki are available!

Results 4 Wikia-and-Wikipedia-EL-Dataset-Creator issues
Sort by recently updated
recently updated
newest added

Thank you for releasing a useful dataset! I also created wikification dataset from Japanese wikipadia and found that there are two bugs in wikiextractor. First, the articles that include a...

Of the total 26 million, 2659 mentions have the following parsing bug. ``` bad tokenize: まず Armstrong (1940) は、1935年から37年にかけてロンドン大学の音声学部に雇用されていた後のケニア初代大統領であるジョモ・ケニヤッタをインフォーマントとして、キクユ語が同じ語であっても文法的な文脈クラス、mboriクラス、njataクラス、クラス、クラスの7クラスに分類している。 bad tokenize: クラス、 bad tokenize: PSTricks は、PostScript で描いた図形を直接 や のコード内に取り込むためのマクロ群である。 bad...