xiaoxiong74

Results 14 comments of xiaoxiong74

> 嗨,跑了infomap在part1_test结果, 但是聚类结果类别数是19276 但是真实类别是8573类。为啥会有这么大的类别差异呢 有很多孤立点,有8000多个,可以对孤立点进行二次聚类比如归入与它最相近点的的类别中去。

> 问下n值一般怎么取,我看原paper中在MS-Celeb-1M实验,(MS-Celeb-1M [11] is a large-scale face recognition dataset consisting of 100K identities, and each identity has about 100 facial images.),k取得80和每个id数量差不太多,但是deepfashion实验里面取得5,但是我看你在infomap里面k取得400。 Infomap是尽量把满足相似度阈值的边都链接起来。本代码中的k值只是为了用faiss快速构建knn,k并不是infomap的一个参数。根据实际数据情况调整即可。

> @xiaoxiong74 ,作者,您好。感激您开源的工作!我在测试MS-1Mpart9(图片数5206761)的数据时,跑了很长时间都还没结果(已经过去5个半小时了)。请问您有做过大规模数据集的测试吗,能分析一下原因吗? 未进行一次性进行大规模数据单独测试,只做过百万级的单批测试。比如实际场景下(如上亿的图片流),建议进行分批聚类后再进行聚类,或结合其他机制策略。

@zhangyanbo2007 我的是内部数据,不方便上传,你自己构造即可

@zhangyanbo2007 文件里qachat.py有代码格式哦

@zhangyanbo2007 如果QA问题太多,意图就太多了,不太合适!一般是单独模块来做QA。

@zhangyanbo2007 哈哈,这个到没注意

此demo未在windows上测试,windows应该问题不大,应该是字符集编码问题,这个百度应该可以解决了

> 您好! > https://github.com/RasaHQ/rasa_nlu/blob/0.13.x/rasa_nlu/extractors/duckling_extractor.py > 这个链接失效了,可以贴一下这个文件duckling_extractor.py在您这个项目吗 在https://github.com/RasaHQ/rasa_nlu/ relase的版本里去找或者直接参考新版本的使用方法

> 您好!在rasa_dataset_training.json文件中,意图 inform_case 和 SearchCase有什么区别?为什么不用一个SearchCase包括这两个意图的样本?另外,如果把这两个意图的样本都归纳到form:case_form,即命名一个case_form意图,这样不是不好构建story吗?现在遇到一些问题想不通,麻烦能够解释下原因吗?谢谢! 当时这么做的意图是为了先通过SearchCase进入本轮对话,再用inform_case 采集信息,这样有利于会话的切换。比如inform_case中有时间字段,当我直接输入一个时间字段时,是直接进入案件这个会话呢还是进入话费咨询这个会话,特别是有共同的字段时,比如时间、地点。所以,这里是先通过SearchCase、request_search这些来先判断进入哪一个会话,进入会话后再采集各自的信息。