Bing comments

Results 24 comments of


                                            Bing

how did the Accuracy statistics were calculated?

![image](https://github.com/user-attachments/assets/d14bc389-62d2-42fe-a6be-9789fb8dbc55)

关于evaluate中的etype参数

因为如果参数为 all ，即使无法执行，SQL层面上match也算对；而exec必须保证SQL能执行且执行结果和Gold完全一致才行，条件比all苛刻，所以会低2个点。

关于evaluate中的etype参数

![image](https://github.com/user-attachments/assets/55969894-4624-441c-adf7-19e54cd1c0fb)

关于evaluate中的etype参数

MAC-SQL 用的exec，这点可以从代码脚本中看到。NL2SQL普遍采用 exec，因为随着大模型出现，EM指标显得很鸡肋，无法反映出模型的真实能力，因为SQL的写法有很多，只要答案对了即可，而EM指标要求写法完全按照Gold的来，很显然这不合理。MAC-SQL在EM较低是正常的，现在大模型方案在EM上都低，所以现在NL2SQL论文都已经摈弃EM指标了，都用的EX指标。

关于evaluate中的etype参数

Spider数据集上是有点调整，你可以用现在的版本。

关于evaluate中的etype参数

我没用 GPT4o跑过，Spider dev 上那个分数是正常的，会有波动。BIRD分数波动可能是BIRD dev 数据集更新了，我用的版本是之前的数据了。VES这个分数计算其实参考性不大，因为这个和当时电脑运行的CPU占用情况有关，有的服务器性能好，比较空闲，VES会很高，有的服务器跑的程序很多，就会导致VES偏低，我觉得这个VES指标看看就好。

关于evaluate中的etype参数

通过把 gold_sql 进行解析得到的，这个过程确实挺麻烦的，因为BIRD的SQL有些并不规范，还有错误，所以还需要加上人工修正。我回头整理一下脚本吧。

Let's all find examples of good/bad usage.(大家一起记录优秀/不好的示例)

![image](https://github.com/user-attachments/assets/b2d89092-3ac6-4c2c-adce-b58bf3e0ecba)

Numpy version error

Can you provide your error logs? The numpy version is nothing special; it may be caused by issues with other dependent packages.

论文中的prompt和代码不一致

后续又进行了调整，以实际代码为准吧。