Wikia-and-Wikipedia-EL-Dataset-Creator icon indicating copy to clipboard operation
Wikia-and-Wikipedia-EL-Dataset-Creator copied to clipboard

Avoid bad anchor insert

Open izuna385 opened this issue 3 years ago • 0 comments

Of the total 26 million, 2659 mentions have the following parsing bug.

bad tokenize: まず Armstrong (1940) は、1935年から37年にかけてロンドン大学の音声学部に雇用されていた後のケニア初代大統領であるジョモ・ケニヤッタをインフォーマントとして、キクユ語が同じ語であっても文法的な文脈クラス、mboriクラス、<a>njataクラス、クラス</a>、<a>クラスの7クラスに分類している。
bad tokenize: クラス、<a>
bad tokenize: PSTricks は、<a>PostScript</a> で描いた図形を直接 </a> や <a> のコード内に取り込むためのマクロ群である。
bad tokenize: PSTricks は、PostScript で描いた図形を直接 <a></a> や <a></a> のコード内に取り込むためのマクロ群である。
bad tokenize: </a>」に名前の由来を発する魔物で、濃い霧やの姿
bad tokenize:  (またはアラ)は、ギリシア語の「</a>」に名前の由来を発する魔物で、濃い<a>霧やの姿を</a>しているといわれる。
bad tokenize: <a>中国</a>では、わし座ι星は、</a>()という星官を、、、<a>わし座δ星、、HD 184701、、、と共に形成する。
bad tokenize: </a>()という星官を、、
bad tokenize: 星官を、、、<a>わし座δ星
bad tokenize: <a>
bad tokenize: 1,2-ヘキサンジオール()は、化学式<a></a>で表される<a>グリコール</a>の一種である。
bad tokenize: ミックスマグは「『<a></a>』の次作というより『<a>オフ・ザ・ウォール</a>』のB面みたいだね」と評価している。
bad tokenize: 2013年7月26日、<a>中国民用航空局</a>より旅客運航の認可を得て、同年12月29日に杭州=重慶、</a>間の旅客定期便の運航を開始した。
bad tokenize: 2013年7月26日、中国民用航空局より旅客運航の認可を得て、同年12月29日に杭州=<a>重慶</a>、</a>間の旅客定期便の運航を開始した。
bad tokenize: 2019年11月、日本の<a>国土交通省より外国人国際運送事業の経営許可を取得し、西安=中部</a>、杭州=中部、杭州=<a>関西の各路線に、国際定期便を就航させる。
bad tokenize: 2019年11月、日本の国土交通省より外国人国際運送事業の経営許可を取得し、<a>西安=中部、杭州</a>=中部、杭州=<a>関西の各路線に、国際定期便を就航させる。
bad tokenize: 中部、杭州=中部、杭州=<a>関西
bad tokenize: 2008年にロシア連邦大統領令により<a>ジュコーフスキー</a>に<a></a>Национальный центр авиастроения России (НЦА)が設立された。
bad tokenize: 2013年7月26日、中国民用航空局より旅客運航の認可を得て、同年12月29日に杭州=重慶、</a>間の旅客定期便の運航を開始した。
bad tokenize: 2019年11月、日本の国土交通省より外国人国際運送事業の経営許可を取得し、西安=中部、杭州=中部、杭州=<a>関西の各路線に、国際定期便を就航させる。
bad tokenize: 明示的には、群 の<a>位数</a>に関する素因数 に渡る <a></a> の積
bad tokenize: 歴史的に<a>古英語</a>では疑問詞の<a></a>「何」は不定の「何か」の意味でも使われていたのだが、現代の英語からはこの用法は消えている。
bad tokenize: フルオレセインの<a>電離平衡</a>における </a> は 6.4 である。
bad tokenize: また、<a>プロトン化/脱プロトン化された</a>フルオレセインの蛍光寿命はおよそ 3 〜 4 <a>ns であり、これを利用して pH を測定することもできる。
bad tokenize: 脱プロトン化されたフルオレセインの蛍光寿命はおよそ 3 〜 4 <a>ns
bad tokenize: フルオレセインの電離平衡における </a> は 6.4 である。
bad tokenize: </a>」の「ム」がそのまま2画(日本の新字体では3
bad tokenize: 新字体では3画)であるの対し、「」の「ム」形は⊥+点に合わせて3画と数えられており、<a>明朝体
bad tokenize: 両方の言語において、<a></a>(dの<a>軟音</a>)で発音される。
bad tokenize: 3つの<a>二重音字</a>・「<a></a>」、「」、「」はそれぞれ1文字とみなされる。
bad tokenize: </a> = 16 と、炭化水素として
bad tokenize: シクロペンタジエンは </a> = 16 と、<a>炭化水素としては異常に強い酸性を示す</a>。
bad tokenize: フェロセンをはじめとする<a>メタロセン
bad tokenize: シルク・ドゥ・ソレイユと歌手のコラボレーションによって発売された作品としては、<a>ビートルズ</a>の『</a>』(2006年)、<a>エルヴィス・プレスリーの『』(2010年)に次ぐ3作目である。bad tokenize: 点火<a>℃</a>)が漏れたものである。
bad tokenize: アンダーソンが陽電子を発見したとき、趙と同じ<a>放射線</a>源</a>を使っていた(歴史的に、は「トリウムCII」の別名でも知られる。<a>崩壊系列を参照)。
bad tokenize: </a>を使っていた(歴史的に、は「トリウムCII
bad tokenize: トリウムCII」の別名でも知られる。<a>崩壊系列
bad tokenize: mhchemは<a>化学式</a>、化学反応式を記述しやすくするための<a></a>のマクロパッケージである。
bad tokenize: mhchemは化学式、<a>化学反応式</a>を記述しやすくするための<a></a>のマクロパッケージである。
bad tokenize: 殷の八師を統帥して叛乱を起こした<a>東夷
bad tokenize: 東征の後、康叔が衛に封じられ、姫髦は衛に程近い</a>に封じられた。
bad tokenize: このキューブの組み合わせは、7,401,196,841,564,901,869,874,093,974,498,574,336,000,000,000(74<a>載</a>119正6841澗5649溝186穣9874</a>939垓7449京8574兆3360<a>億)通りformula_1である。
bad tokenize: このキューブの組み合わせは、7,401,196,841,564,901,869,874,093,974,498,574,336,000,000,000(74載119<a>正</a>6841澗5649溝186穣9874</a>939垓7449京8574兆3360<a>億)通りformula_1である。
bad tokenize: このキューブの組み合わせは、7,401,196,841,564,901,869,874,093,974,498,574,336,000,000,000(74載119正6841<a>澗</a>5649溝186穣9874</a>939垓7449京8574兆3360<a>億)通りformula_1である。
bad tokenize: このキューブの組み合わせは、7,401,196,841,564,901,869,874,093,974,498,574,336,000,000,000(74載119正6841澗5649<a>溝</a>186穣9874</a>939垓7449京8574兆3360<a>億)通りformula_1である。
bad tokenize: このキューブの組み合わせは、7,401,196,841,564,901,869,874,093,974,498,574,336,000,000,000(74載119正6841澗5649溝186<a>穣</a>9874</a>939垓7449京8574兆3360<a>億)通りformula_1である。
bad tokenize: </a>939垓744
bad tokenize: このキューブの組み合わせは、7,401,196,841,564,901,869,874,093,974,498,574,336,000,000,000(74載119正6841澗5649溝186穣9874</a>939<a>垓7449京857</a>4兆3360<a>億)通りformula_1である。
bad tokenize: このキューブの組み合わせは、7,401,196,841,564,901,869,874,093,974,498,574,336,000,000,000(74載119正6841澗5649溝186穣9874</a>939垓7449<a>京8574兆336</a>0<a>億)通りformula_1である。
bad tokenize: 兆3360<a>億
bad tokenize: 全巻を通じて世界各地の地名そのほかの地理的称呼はマテオ・リッチの漢訳にならっており、(<a>ヨーロッパ</a>、巻之一)・(アフリカ、巻之二)・</a>(巻之三,上下)・(南アメリカ、巻之四)・(<a>北アメリカ、巻之五)の順に組織的に世界各国の地理が漢文で書かれている。
bad tokenize: 全巻を通じて世界各地の地名そのほかの地理的称呼はマテオ・リッチの漢訳にならっており、(ヨーロッパ、巻之一)・(<a>アフリカ</a>、巻之二)・</a>(巻之三,上下)・(南アメリカ、巻之四)・(<a>北アメリカ、巻之五)の順に組織的に世界各国の地理が漢文で書かれている。
bad tokenize: </a>(巻之三,上下)・(南アメリカ、巻之
bad tokenize: 南アメリカ、巻之四)・(<a>北アメリカ
bad tokenize: 乱を治めた<a>金春秋</a>(後の武烈王)と</a>(『三国史記』によれば、黄帝の子の少昊金天氏の子孫)とは真徳女王を立てて親唐路線を継承していった。
bad tokenize: </a>(『三国史記』によ
bad tokenize: 乱を治めた金春秋(後の武烈王)と</a>(『<a>三国史記』によれば、黄帝の子の</a>少昊金天氏の子孫)とは真徳女王を立てて親唐路線を継承していった。
bad tokenize: 乱を治めた金春秋(後の武烈王)と</a>(『三国史記』によれば、<a>黄帝の子の少昊金天氏の子孫</a>)とは真徳女王を立てて親唐路線を継承していった。
bad tokenize: 乱を治めた金春秋(後の武烈王)と</a>(『三国史記』によれば、黄帝の子の<a>少昊金天氏の子孫)とは真徳女王を立て</a>て親唐路線を継承していった。
bad tokenize: 金春秋は中国の<a>律令制度を取り入れる改革を始め、650年にはそ</a>れまで新羅独自で用いていた年号(<a>太和)を廃止し、唐の年号を用いるなどして、唐との連携を強めていった。
bad tokenize: 650年にはそれまで新羅独自で用いていた年号(<a>太和
bad tokenize: </a>に軍を率いさせ、百済に進軍
bad tokenize: <a>ギリシア語</a>で「食用となる」という意味の語は </a> であり、ラテン文字に置き換えると edodimos となり、これに由来すると考えられている。
bad tokenize: </a> であり、ラテン文字に置き
bad tokenize: ギリシア語で「食用となる」という意味の語は </a> であり、ラテン文字に置き換えると edodimos となり、これに由来すると考えられている。
bad tokenize: なお、江戸にちなんで命名された学名では yedo と表記される<a>ソメイヨシノがある。
bad tokenize: 角速度を表す記号としてはしばしば<a>ギリシア文字</a>の <a></a> や が用いられる。
bad tokenize: 水に溶かすと<a>酸性</a>を示し、<a></a> は 4.21 である。
bad tokenize: </a>(吉田カバン)やプラダ、グッ
bad tokenize: また、</a>(吉田カバン)や<a>プラダ、グッチ、コー</a>チ、ポール・スミス、ルイ・ヴィトン、ダンヒルなど各種ファッションブランドの専用ケース等も存在し、アップル社でも、<a>靴下をモチーフにした靴下を販売している。
bad tokenize: また、</a>(吉田カバン)やプラダ、<a>グッチ、コーチ、ポー</a>ル・スミス、ルイ・ヴィトン、ダンヒルなど各種ファッションブランドの専用ケース等も存在し、アップル社でも、<a>靴下をモチーフにした靴下を販売している。
bad tokenize: また、</a>(吉田カバン)やプラダ、グッチ、<a>コーチ、ポール・スミス、ルイ</a>・ヴィトン、ダンヒルなど各種ファッションブランドの専用ケース等も存在し、アップル社でも、<a>靴下をモチーフにした靴下を販売している。
bad tokenize: また、</a>(吉田カバン)やプラダ、グッチ、コーチ、<a>ポール・スミス、ルイ・ヴィトン、ダン</a>ヒルなど各種ファッションブランドの専用ケース等も存在し、アップル社でも、<a>靴下をモチーフにした靴下を販売している。
bad tokenize: また、</a>(吉田カバン)やプラダ、グッチ、コーチ、ポール・スミス、<a>ルイ・ヴィトン、ダンヒルなど各</a>種ファッションブランドの専用ケース等も存在し、アップル社でも、<a>靴下をモチーフにした靴下を販売している。
bad tokenize: ダンヒルなど各種ファッションブランドの専用ケース等も存在し、アップル社でも、<a>靴下
bad tokenize: 日本の<a>大阪市</a>では猛暑だった2018年7月、熱汚染による気温押し上げが最大0.27</a>あったと<a>産業技術総合研究所は推測している。
bad tokenize: 日本の大阪市では猛暑だった2018年7月、熱汚染による気温押し上げが最大0.27<a></a>あったと<a>産業技術総合研究所</a>は推測している。
bad tokenize: ヴ、ゔ(う゛)は、<a>母音</a> /u/(</a>または)を示す文字「う」、「ウ」に濁点を付した<a>文字である。
bad tokenize: </a>または)を示%      

izuna385 avatar May 04 '21 15:05 izuna385