knp icon indicating copy to clipboard operation
knp copied to clipboard

;; Invalid input (4 items)<\ \ \ \ \ \ 未定義語 15 その他 1 * 0 * 0 "品詞推定:名詞"

Open otariidae opened this issue 3 years ago • 2 comments

$ echo "複数の連続した空白を含むテキストを入力すると  エラーが発生します" | jumanpp | knp
;; Invalid input (4 items)<\ \  \ \  \ \  未定義語 15 その他 1 * 0 * 0 "品詞推定:名詞"
> !
# S-ID:1 KNP:5.0-165d699 DATE:2020/09/09 SCORE:0.00000 ERROR:Cannot make mrph

EOS

JUMAN++の出力:

$ echo "複数の連続した空白を含むテキストを入力すると  エラーが発生します" | jumanpp
複数 ふくすう 複数 名詞 6 普通名詞 1 * 0 * 0 "代表表記:複数/ふくすう カテゴリ:数量"
の の の 助詞 9 接続助詞 3 * 0 * 0 NIL
連続 れんぞく 連続 名詞 6 サ変名詞 2 * 0 * 0 "代表表記:連続/れんぞく カテゴリ:抽象物"
した した する 動詞 2 * 0 サ変動詞 16 タ形 10 "代表表記:する/する 付属動詞候補(基本) 自他動詞:自:成る/なる"
空白 くうはく 空白だ 形容詞 3 * 0 ナノ形容詞 22 語幹 1 "代表表記:空白だ/くうはくだ"
を を を 助詞 9 格助詞 1 * 0 * 0 NIL
含む ふくむ 含む 動詞 2 * 0 子音動詞マ行 9 基本形 2 "代表表記:含む/ふくむ"
テキスト てきすと テキスト 名詞 6 普通名詞 1 * 0 * 0 "代表表記:テキスト/てきすと カテゴリ:人工物-その他;抽象物 ドメイン:教育・学習;科学・技術"
を を を 助詞 9 格助詞 1 * 0 * 0 NIL
入力 にゅうりょく 入力 名詞 6 サ変名詞 2 * 0 * 0 "代表表記:入力/にゅうりょく カテゴリ:抽象物 ドメイン:科学・技術 反義:名詞-サ変名詞:出力/しゅつりょく"
する する する 動詞 2 * 0 サ変動詞 16 基本形 2 "代表表記:する/する 付属動詞候補(基本) 自他動詞:自:成る/なる"
と と と 助詞 9 格助詞 1 * 0 * 0 NIL
\ \  \ \  \ \  未定義語 15 その他 1 * 0 * 0 "品詞推定:名詞"
エラー えら エラ 名詞 6 普通名詞 1 * 0 * 0 "代表表記:エラ/えら 副詞識別 自動獲得:テキスト 非標準表記"
が が が 助詞 9 格助詞 1 * 0 * 0 NIL
発生 はっせい 発生 名詞 6 サ変名詞 2 * 0 * 0 "代表表記:発生/はっせい カテゴリ:抽象物"
し し する 動詞 2 * 0 サ変動詞 16 基本連用形 8 "代表表記:する/する 付属動詞候補(基本) 自他動詞:自:成る/なる"
ます ます ます 接尾辞 14 動詞性接尾辞 7 動詞性接尾辞ます型 31 基本形 2 "代表表記:ます/ます"
EOS

JUMAN++ 1.02 KNP masterブランチの最新版 165d699ae8a745860a89925ffd451abb4c93da5a OS Ubuntu 20.04

otariidae avatar Sep 09 '20 07:09 otariidae

Minimal reproduce code:

$ echo "  " | jumanpp | knp
;; Invalid input (4 items)<\ \  \ \  \ \  未定義語 15 その他 1 * 0 * 0 "品詞推定:名詞"
> !
# S-ID:1 KNP:5.0-165d699 DATE:2020/09/18 SCORE:0.00000 ERROR:Cannot make mrph
EOS

JUMAN++の出力:

$ echo "  " | jumanpp
\ \  \ \  \ \  未定義語 15 その他 1 * 0 * 0 "品詞推定:名詞"
EOS

More cases:

$ echo " >" | jumanpp | knp
;; Invalid input (4 items)<\ > \ > \ > 未定義語 15 その他 1 * 0 * 0 "品詞推定:名詞"
> !
# S-ID:1 KNP:5.0-165d699 DATE:2020/09/18 SCORE:0.00000 ERROR:Cannot make mrph

EOS

$ echo " ?" | jumanpp | knp
;; Invalid input (4 items)<\ ? \ ? \ ? 未定義語 15 その他 1 * 0 * 0 "品詞推定:名詞"
> !
# S-ID:1 KNP:5.0-165d699 DATE:2020/09/18 SCORE:0.00000 ERROR:Cannot make mrph

EOS

$ echo " !" | jumanpp | knp
;; Invalid input (4 items)<\ ! \ ! \ ! 未定義語 15 その他 1 * 0 * 0 "品詞推定:名詞"
> !
# S-ID:1 KNP:5.0-165d699 DATE:2020/09/18 SCORE:0.00000 ERROR:Cannot make mrph

EOS

otariidae avatar Sep 18 '20 07:09 otariidae

Because JUMAN/Juman++/KNP previously supposed that the input is normalized to ZENKAKU characters, they cannot analyze some reserved HANKAKU characters. Now, the latest github version of Juman++ escapes these characters, and KNP can analyze sentences with them.

dkawahara avatar Nov 25 '21 04:11 dkawahara