MillionHero
MillionHero copied to clipboard
根据PMI值给出答案的算法,成功率有点低
中午试了一场,除去文字识别不准确的,成功率也不足50%,不知道有没有什么改进方法。
问题:柯南道尔小说中的人物夏洛克福尔摩斯的搭档是? 答案: 华生 雷斯垂德 莫利亚蒂 莫利亚蒂 countQA:515 countAnswer:954000 ans:6.790343E-9 华生 countQA:71600 countAnswer:19700000 ans:4.5717204E-8 雷斯垂德 countQA:10800 countAnswer:77700 ans:1.7483791E-6 --------最终结果------- 雷斯垂德 执行时间:4.48s
问题:NBA球星科比获得过几次NBA常规赛的MVP? 答案: 1次 2次 3次 1次 countQA:483000 countAnswer:90600000 ans:9.675365E-10 2次 countQA:482000 countAnswer:84000000 ans:1.0413966E-9 3次 countQA:482000 countAnswer:75200000 ans:1.1632622E-9 --------最终结果------- 3次 执行时间:4.198s
我实际测试了一下。发现不是算法的问题,是搜索的时候包含的符号导致结果数不精确
确实在OCR识别那块就不是很准确,会受到符号的干扰。我测试的一个问题是“你父亲的母亲的儿子的女儿不可能是你的?”,选项有“姐姐”、“堂姐”、“表姐”,搜索出来的结果却是下面这样:
感觉开发者要先提取出题目的ROI区域,再进行后续的识别检索会更准确