xiaoxiong74 comments

Results 14 comments of


xiaoxiong74

Over clusters

> 嗨，跑了infomap在part1_test结果, 但是聚类结果类别数是19276 但是真实类别是8573类。为啥会有这么大的类别差异呢有很多孤立点，有8000多个，可以对孤立点进行二次聚类比如归入与它最相近点的的类别中去。

> 问下n值一般怎么取，我看原paper中在MS-Celeb-1M实验，（MS-Celeb-1M [11] is a large-scale face recognition dataset consisting of 100K identities, and each identity has about 100 facial images.），k取得80和每个id数量差不太多，但是deepfashion实验里面取得5，但是我看你在infomap里面k取得400。 Infomap是尽量把满足相似度阈值的边都链接起来。本代码中的k值只是为了用faiss快速构建knn，k并不是infomap的一个参数。根据实际数据情况调整即可。

大数据集测试时间过长

> @xiaoxiong74 ，作者，您好。感激您开源的工作！我在测试MS-1Mpart9（图片数5206761）的数据时，跑了很长时间都还没结果（已经过去5个半小时了）。请问您有做过大规模数据集的测试吗，能分析一下原因吗？未进行一次性进行大规模数据单独测试，只做过百万级的单批测试。比如实际场景下(如上亿的图片流)，建议进行分批聚类后再进行聚类，或结合其他机制策略。

麻烦你的qabot的文件上传下好吧

@zhangyanbo2007 我的是内部数据，不方便上传，你自己构造即可

麻烦你的qabot的文件上传下好吧

@zhangyanbo2007 文件里qachat.py有代码格式哦

麻烦你的qabot的文件上传下好吧

@zhangyanbo2007 如果QA问题太多，意图就太多了，不太合适！一般是单独模块来做QA。

好有心机啊，跟_rasa_chatbot就差一个字符，哈哈

@zhangyanbo2007 哈哈，这个到没注意

测试nlu模型时报错

此demo未在windows上测试，windows应该问题不大，应该是字符集编码问题，这个百度应该可以解决了

链接失效了

> 您好！ > https://github.com/RasaHQ/rasa_nlu/blob/0.13.x/rasa_nlu/extractors/duckling_extractor.py > 这个链接失效了，可以贴一下这个文件duckling_extractor.py在您这个项目吗在https://github.com/RasaHQ/rasa_nlu/ relase的版本里去找或者直接参考新版本的使用方法

意图 inform_case 和 SearchCase区别

> 您好！在rasa_dataset_training.json文件中，意图 inform_case 和 SearchCase有什么区别？为什么不用一个SearchCase包括这两个意图的样本？另外，如果把这两个意图的样本都归纳到form：case_form，即命名一个case_form意图，这样不是不好构建story吗？现在遇到一些问题想不通，麻烦能够解释下原因吗？谢谢！当时这么做的意图是为了先通过SearchCase进入本轮对话，再用inform_case 采集信息，这样有利于会话的切换。比如inform_case中有时间字段，当我直接输入一个时间字段时，是直接进入案件这个会话呢还是进入话费咨询这个会话，特别是有共同的字段时，比如时间、地点。所以，这里是先通过SearchCase、request_search这些来先判断进入哪一个会话，进入会话后再采集各自的信息。