psi icon indicating copy to clipboard operation
psi copied to clipboard

[Bug]: psi_test数据容量问题

Open ChongMa1 opened this issue 1 year ago • 7 comments

Issue Type

Usability

Modules Involved

PSI

Have you reproduced the bug with SPU HEAD?

Yes

Have you searched existing issues?

Yes

SPU Version

spu 0.7.0b0

OS Platform and Distribution

centos 7

Python Version

3.8

Compiler Version

No response

Current Behavior?

我修改了bob.csv,扩大了数据量,显示出错,self.assertEqual( 数1 != 数2)。我跟着代码from .psi_pb2 import( # type: ignoreBucketPsiConfig,CurveType,InputParams,MemoryPsiConfig,OutputParams,PsiResultReport,PsiType,),没有找到这个psi_pb2这个文件。

Standalone code to reproduce the issue

print("A bug")

Relevant log output

No response

ChongMa1 avatar Jan 31 '24 08:01 ChongMa1

能发一下代码和错误日志吗,感谢!

6fj avatar Jan 31 '24 08:01 6fj

微信图片_20240131161804

ChongMa1 avatar Jan 31 '24 08:01 ChongMa1

我把数据量扩大到了10000,之后出现的错误,9999就没有问题

ChongMa1 avatar Jan 31 '24 08:01 ChongMa1

你数据有重复值吗

6fj avatar Jan 31 '24 09:01 6fj

有的,bob.csv我试了9998,9999行,就可以,10000,10001,10002,就不可以,是否是数据大小有限制,我正在代码里面找这个限制,但是没有发现psi.py里面的psi_pb2这个包。 微信图片_20240131170816

ChongMa1 avatar Jan 31 '24 09:01 ChongMa1

嗯 这个和数据大小没关系,你看一下这一行是在测试结果数量是否符合预期,如果你知道数据有重复,那这一行assert就可以不关注了

6fj avatar Jan 31 '24 09:01 6fj

@ChongMa1 可以添加个微信技术支持微信哈(secretflow02)可以深入交流下技术实现。

Chrisdehe avatar Mar 08 '24 07:03 Chrisdehe