Hiroshi Matsuda
Hiroshi Matsuda
- GiNZAの全てのpipeline componentのプロパティ設定の組み合わせを網羅したテストケースを整備する
次の条件から、従来型のtok2vecモデルとtransformersモデルとで異なるマルチプロセス戦略を取りたい。 - tok2vec - CPU処理時 - 単一コアを100%占有 - GPU処理時 - GPU占有率は20%程度 - GPUメモリは400MBを専有 - CPUは1コアを100%で専有 - CPU(E5-2660 v3)単一スレッドに対してRTX8000は2倍速 - transformers - CPU処理時 - 全コアのCPUタイムの約半分を占有 - GPU処理時 - GPU占有率は17%程度 - GPUメモリは1.8GBを専有...
## 実装範囲 - 全てのコマンドラインツールの全オプションを個別に有効化した場合の挙動の確認 - 通常想定される入力文字列に加えて空行・記号列・サロゲートペアなどを織り交ぜたテストデータを作成する - spaCyのテストケースを参考にする https://github.com/explosion/spaCy/tree/master/spacy/tests/lang/ja
It seems `\n` is causing token index shifting after the line 10295 in `vocab.txt`. ``` $ less -N vocab.txt ... 10294 ##錄 10295 10296 10297 する ``` Fortunately, I did...