gcn_clustering About features of CASIA

Hello, I use another network to extract features from CASIA and use your GCN to train it.

I keep the same parameter setting and find that the accuracy is lower.

I want to ask if there is some point I need to pay attention when I use a new feature.

Thank you.

May 14 '19 02:05 LZDSJTU

Pay attention to the number of positive/negative nodes in the IPS. Sometimes the number of negative nodes is much larger than the number of positive ones, in such case the GCN cannot learn good predictions.

Also, you can employ Agglomerative Hierarchical Clustering (AHC) to cluster your data using the same face representation, as a baseline, to show how good your feature is.

May 14 '19 02:05 Zhongdao

谢谢你的建议，我排查一下IPS里面的正负样本。我用的是CASIA的数据集，根据网上提供的cleanlist，排除脏样本后还剩40万左右。如果IPS里的正负样本差别过大，您是否有什么建议？

另外，您是否可以提供一个您用的AHC的脚本，这样可以更直观地比较我这边的特征和您使用的特征的好坏。

谢谢您的回复。

May 14 '19 03:05 LZDSJTU

您好，另外还想问一下，您在对CASIA搜索knn的时候，有没有进行什么特别的处理呢？

我发现提供的knn.graph.CASIA.kdtree.npy文件中，对于中心点，其对应的邻居点很多都不是和中心点同一个label的。比如中心点在真值中存在另外50个相同label的点，但在邻居点中，可能只包含了这50个中的极少数点。

但是，我自己生成的knn，包含相同label点的比例高很多。

想问一问，您在做knn的时候，有没有进行人为的筛选或者操作呀？

May 14 '19 08:05 LZDSJTU

knn.graph.CASIA.kdtree.npy 这个knn是用kdtree得到的近似k近邻，不是准确的K近邻。用近似k近邻好处有两个：一是建图快；二是能在IPS中引入更多的负样本，更有利于训练。

你也可以做一些数据的挑选。比如按照长尾分布采样类别样本。这样得到的IPS的多样性也许会多一些。

May 14 '19 13:05 Zhongdao

您好，另外还想问一下，您在对CASIA搜索knn的时候，有没有进行什么特别的处理呢？

我发现提供的knn.graph.CASIA.kdtree.npy文件中，对于中心点，其对应的邻居点很多都不是和中心点同一个label的。比如中心点在真值中存在另外50个相同label的点，但在邻居点中，可能只包含了这50个中的极少数点。

但是，我自己生成的knn，包含相同label点的比例高很多。

想问一问，您在做knn的时候，有没有进行人为的筛选或者操作呀？

Hi, 我也在follow这个工作，也遇到了类似的问题，您能留个邮箱我们交流下吗？

May 15 '19 04:05 jxyecn

谢谢你的建议，我排查一下IPS里面的正负样本。我用的是CASIA的数据集，根据网上提供的cleanlist，排除脏样本后还剩40万左右。如果IPS里的正负样本差别过大，您是否有什么建议？

另外，您是否可以提供一个您用的AHC的脚本，这样可以更直观地比较我这边的特征和您使用的特征的好坏。

谢谢您的回复

谢谢你的建议，我排查一下IPS里面的正负样本。我用的是CASIA的数据集，根据网上提供的cleanlist，排除脏样本后还剩40万左右。如果IPS里的正负样本差别过大，您是否有什么建议？

另外，您是否可以提供一个您用的AHC的脚本，这样可以更直观地比较我这边的特征和您使用的特征的好坏。

谢谢您的回复。

您好，我也在follow这个工作，我也是用casia数据集训练的，您能发一下您下载casia clean list的网址吗？谢谢！！

May 15 '19 06:05 lycwgf

@LZDSJTU 层次聚类用sklearn里面的就可以了

May 15 '19 06:05 Zhongdao

@LZDSJTU 层次聚类用sklearn里面的就可以了您好，这个用tensorflow训练精度上会有影响吗？

May 15 '19 07:05 lycwgf

@lycwgf 框架应该没有影响吧

May 15 '19 08:05 Zhongdao

您好，另外还想问一下，您在对CASIA搜索knn的时候，有没有进行什么特别的处理呢？我发现提供的knn.graph.CASIA.kdtree.npy文件中，对于中心点，其对应的邻居点很多都不是和中心点同一个label的。比如中心点在真值中存在另外50个相同label的点，但在邻居点中，可能只包含了这50个中的极少数点。但是，我自己生成的knn，包含相同label点的比例高很多。想问一问，您在做knn的时候，有没有进行人为的筛选或者操作呀？

Hi, 我也在follow这个工作，也遇到了类似的问题，您能留个邮箱我们交流下吗？

[email protected]

May 16 '19 03:05 LZDSJTU