botissue comments

Results 10 comments of


                                            botissue

不相信 jieba cut 这么好用

不相信一个教授能得出这么离谱的结论，但凡有点工程经验或者品位也不至于。比如这句：`'美媒称其在得州住豪宅。采用优等生鲜肉，欢迎新老师生前来就餐'` - jieba：`['美媒称', '其', '在', '得', '州', '住', '豪宅', '。', '采用', '优等生', '鲜肉', '，', '欢迎', '新', '老师', '生前', '来', '就餐']` - LTP：`['美', '媒', '称', '其', '在', '得州', '住', '豪宅', '。',...

不相信 jieba cut 这么好用

求教怎么跑出这么离谱的结果，给段代码截图？本人熟练掌握各大分词器，翻遍了HanLP的API从来没有跑出过 "十八", "届三"的。我怀疑要么是故意黑人的，要么跟其他分词器搞混了。。。 ![黑子](https://user-images.githubusercontent.com/40928864/153936306-cbbb4ffa-a4fb-44af-b718-2bde4b90000e.png) ![章口就来](https://user-images.githubusercontent.com/40928864/153938847-9e2ad3ea-5fab-48fe-90ee-3671209af28f.png) > 作为前维护者，这个项目本身长期缺乏维护，但处于「能用」水平。根据个人经验，各位若在意准确度，请自己训练/生成词库；避免使用自带的 HMM 模型；TF-IDF 请使用相应语境的 IDF 或换用其他工具。尊重您的开源贡献，但我有异议。就像另一个老哥说的一样，这个项目已经死了没有存在意义了。其他分词器生成的训练集质量太低了，上梁不正下梁歪，生成的词库能好到哪里去呢？从工程角度来讲，jieba的无论是代码质量还是算法，都比不上那个取消星星的老哥写得。都2022年了，一个分词器还得依靠词频词库，那得是落后得多离谱。如果要求速度，我会用实现了双数组字典树（double array trie）的库，每秒可以分几千万上亿字。仅仅是简单能用的话，我会选择pkuseg。在意准确度，我会选择深度学习。就算要跨平台，我会用RESTful api，哪种语言不能调呢。要训练词库，jieba提供官方训练接口么？我干脆用ltp，hanlp之类官方提供训练接口的库好了

專詞定義問題

类似这种？ https://github.com/hankcs/HanLP/blob/doc-zh/plugins/hanlp_demo/hanlp_demo/zh/demo_custom_dict_stl.py#L16

專詞定義問題

我的意思是针对每个可能出错的语境，加入这种规则。比如 tok.dict_force = { '和服务必按': ['和服务', '必', '按'], '和服務必': ['和服', '務必'], '臍中央': ['臍', '中央'], '臍中' } 就能实现你要的效果。要有想象力。

取消星星了，这个项目已经死了

赞，坐吃山空，不破不立。补充一点，老牌分词工具其实都大刀阔斧的改革了，比如斯坦福CoreNLP续作Stanza，spacy，LTP升级4.0，HanLP升级2.0……jieba的paddle模式算是一次尝试，但是很敷衍，准确率仍然垫底，那套python2的代码结构现在也不适合学习，唯一的意义就是路径依赖。改革需要勇气，大版本一更新失去一批老用户，费力不讨好，哪有躺平轻松。但长远看，新技术必然取代旧技术，持续更新的必然比一潭死水强我在另一个回答里也提了这个观点：https://github.com/fxsjy/jieba/issues/953#issuecomment-1000489899

为什么SRL识别能力很低？被动句都不能处理？

有意思，似乎得用AMR：https://hanlp.hankcs.com/?sentence=我被兔子咬了#amr

评测疑似数据泄漏？

关注。baichuan-7B高出同规模模型7个点，实在超出常理。一般而言，超过零点几个点属于正常，超过一个点已经惊为天人了。而baichuan-7B的模型结构以及optimizer等都没有创新，甚至还没有采用目前sota技术，实在难以想象。如果训练集中特意加入了人工augment过的、与评测数据集类似的数据，是否违反了”语言模型是零样本学习者“这个出发点，无法与其他模型公平比较？这种为应试而生的模型，是否在下游任务上存在其他语言模型不存在的劣势？

评测疑似数据泄漏？

另外，将LLaMA-7B、Falcon-7B等主要语料为英文的模型纳入中文评测突出baichuan-7B高出10-20个点是没有任何意义的。对标同是中英双语的ChatGLM-6B，注意到baichuan-7B在中文评测中的优势显著大于英文评测，中文数据对中国人而言更容易操作，这似乎更加验证了data leak或者data augmentation的痕迹。

知乎反爬似乎已经升级

2.0签名后是44位，3.0签名是68位。分享一下3.0可运行的js： [encrypt.js.zip](https://github.com/niuniuJQKKK/zhihu_crawler/files/9639903/encrypt.js.zip) 调用方法： ``` ctx1.call('D', fmd5) ``` 但是可能还存在其他需要修改的地方，目前只能报错： {'error': {'message': '请求参数异常，请升级客户端后重试', 'code': 10003}}

知乎反爬似乎已经升级

对，就是前几天突然不能用了，那时候3.0已经上线了一段时间。现在网页上的API是这种形式： https://api.zhihu.com/questions/477754936/feeds?count=5&cursor=50ec0b63022b8ff0972fc6a8cd701fa5&order=votenum&session_id=1654319147986710793&show_detail=1&count=10 估计以前的API就是个蜜罐，浪费大家的时间。最好研究现在的API，相关讨论： https://github.com/srx-2000/spider_collection/issues/32