botissue
botissue
不相信一个教授能得出这么离谱的结论,但凡有点工程经验或者品位也不至于。比如这句:`'美媒称其在得州住豪宅。采用优等生鲜肉,欢迎新老师生前来就餐'` - jieba:`['美媒称', '其', '在', '得', '州', '住', '豪宅', '。', '采用', '优等生', '鲜肉', ',', '欢迎', '新', '老师', '生前', '来', '就餐']` - LTP:`['美', '媒', '称', '其', '在', '得州', '住', '豪宅', '。',...
求教怎么跑出这么离谱的结果,给段代码截图?本人熟练掌握各大分词器,翻遍了HanLP的API从来没有跑出过 "十八", "届三"的。我怀疑要么是故意黑人的,要么跟其他分词器搞混了。。。   > 作为前维护者,这个项目本身长期缺乏维护,但处于「能用」水平。根据个人经验,各位若在意准确度,请自己训练/生成词库;避免使用自带的 HMM 模型;TF-IDF 请使用相应语境的 IDF 或换用其他工具。 尊重您的开源贡献,但我有异议。就像另一个老哥说的一样,这个项目已经死了没有存在意义了。其他分词器生成的训练集质量太低了,上梁不正下梁歪,生成的词库能好到哪里去呢?从工程角度来讲,jieba的无论是代码质量还是算法,都比不上那个取消星星的老哥写得。都2022年了,一个分词器还得依靠词频词库,那得是落后得多离谱。如果要求速度,我会用实现了双数组字典树(double array trie)的库,每秒可以分几千万上亿字。仅仅是简单能用的话,我会选择pkuseg。在意准确度,我会选择深度学习。就算要跨平台,我会用RESTful api,哪种语言不能调呢。要训练词库,jieba提供官方训练接口么?我干脆用ltp,hanlp之类官方提供训练接口的库好了
类似这种? https://github.com/hankcs/HanLP/blob/doc-zh/plugins/hanlp_demo/hanlp_demo/zh/demo_custom_dict_stl.py#L16
我的意思是针对每个可能出错的语境,加入这种规则。比如 tok.dict_force = { '和服务必按': ['和服务', '必', '按'], '和服務必': ['和服', '務必'], '臍中央': ['臍', '中央'], '臍中' } 就能实现你要的效果。要有想象力。
赞,坐吃山空,不破不立。补充一点,老牌分词工具其实都大刀阔斧的改革了,比如斯坦福CoreNLP续作Stanza,spacy,LTP升级4.0,HanLP升级2.0……jieba的paddle模式算是一次尝试,但是很敷衍,准确率仍然垫底,那套python2的代码结构现在也不适合学习,唯一的意义就是路径依赖。改革需要勇气,大版本一更新失去一批老用户,费力不讨好,哪有躺平轻松。但长远看,新技术必然取代旧技术,持续更新的必然比一潭死水强 我在另一个回答里也提了这个观点:https://github.com/fxsjy/jieba/issues/953#issuecomment-1000489899
有意思,似乎得用AMR:https://hanlp.hankcs.com/?sentence=我被兔子咬了#amr
关注。baichuan-7B高出同规模模型7个点,实在超出常理。一般而言,超过零点几个点属于正常,超过一个点已经惊为天人了。而baichuan-7B的模型结构以及optimizer等都没有创新,甚至还没有采用目前sota技术,实在难以想象。如果训练集中特意加入了人工augment过的、与评测数据集类似的数据,是否违反了”语言模型是零样本学习者“这个出发点,无法与其他模型公平比较?这种为应试而生的模型,是否在下游任务上存在其他语言模型不存在的劣势?
另外,将LLaMA-7B、Falcon-7B等主要语料为英文的模型纳入中文评测突出baichuan-7B高出10-20个点是没有任何意义的。对标同是中英双语的ChatGLM-6B,注意到baichuan-7B在中文评测中的优势显著大于英文评测,中文数据对中国人而言更容易操作,这似乎更加验证了data leak或者data augmentation的痕迹。
2.0签名后是44位,3.0签名是68位。分享一下3.0可运行的js: [encrypt.js.zip](https://github.com/niuniuJQKKK/zhihu_crawler/files/9639903/encrypt.js.zip) 调用方法: ``` ctx1.call('D', fmd5) ``` 但是可能还存在其他需要修改的地方,目前只能报错: {'error': {'message': '请求参数异常,请升级客户端后重试', 'code': 10003}}
对,就是前几天突然不能用了,那时候3.0已经上线了一段时间。现在网页上的API是这种形式: https://api.zhihu.com/questions/477754936/feeds?count=5&cursor=50ec0b63022b8ff0972fc6a8cd701fa5&order=votenum&session_id=1654319147986710793&show_detail=1&count=10 估计以前的API就是个蜜罐,浪费大家的时间。最好研究现在的API,相关讨论: https://github.com/srx-2000/spider_collection/issues/32