FergusChen
FergusChen
版本 5.1.6, ToAnalysis.parse("我们回顾这二十多年来的世界历史"); 得到的分词结果是这样的: 我们/r,回顾/v,这/r,二十多/mq,多年来/nrf,的/u,世界/n,历史/n 为什么“二十多年”会分成“二十多”和“多年来”, 这样用建索引可以, 但正常分词就索引出错了。 用的默认配置(具体的文件中并没有内容): #path of userLibrary this is default library dic=library/default.dic #redress dic file path ambiguityLibrary=library/ambiguity.dic #set real name isRealName=true #isNameRecognition default true isNameRecognition=true...
I noticed a difference in fsspec's handling of folders containing parquet files: Call method:` pd.read_parquet ("s3://xxx/test_dir/")` Normally, if there is a parquet file under the test_dir, this method can read...