spider
spider copied to clipboard
Evaluation.py doesn't give 1.000 accuracy giving the gold labels
I've just ran:
../evaluation.py --gold dev_gold.sql --pred dev_gold.sql --db database --table tables.json --etype all
Expected output: everything has 1.000 Actual output:
easy medium hard extra all
count 248 446 174 166 1034
===================== EXECUTION ACCURACY =====================
execution 1.000 0.996 1.000 1.000 0.998
====================== EXACT MATCHING ACCURACY =====================
exact match 1.000 1.000 1.000 1.000 1.000
---------------------PARTIAL MATCHING ACCURACY----------------------
select 1.000 1.000 1.000 1.000 1.000
select(no AGG) 1.000 1.000 1.000 1.000 1.000
where 1.000 1.000 1.000 1.000 1.000
where(no OP) 1.000 1.000 1.000 1.000 1.000
group(no Having) 1.000 1.000 1.000 1.000 1.000
group 1.000 1.000 1.000 1.000 1.000
order 1.000 1.000 1.000 1.000 1.000
and/or 1.000 1.000 1.000 1.000 1.000
IUEN 0.000 0.000 1.000 1.000 1.000
keywords 1.000 1.000 1.000 1.000 1.000
---------------------- PARTIAL MATCHING RECALL ----------------------
select 1.000 1.000 1.000 1.000 1.000
select(no AGG) 1.000 1.000 1.000 1.000 1.000
where 1.000 1.000 1.000 1.000 1.000
where(no OP) 1.000 1.000 1.000 1.000 1.000
group(no Having) 1.000 1.000 1.000 1.000 1.000
group 1.000 1.000 1.000 1.000 1.000
order 1.000 1.000 1.000 1.000 1.000
and/or 1.000 1.000 1.000 1.000 1.000
IUEN 0.000 0.000 1.000 1.000 1.000
keywords 1.000 1.000 1.000 1.000 1.000
---------------------- PARTIAL MATCHING F1 --------------------------
select 1.000 1.000 1.000 1.000 1.000
select(no AGG) 1.000 1.000 1.000 1.000 1.000
where 1.000 1.000 1.000 1.000 1.000
where(no OP) 1.000 1.000 1.000 1.000 1.000
group(no Having) 1.000 1.000 1.000 1.000 1.000
group 1.000 1.000 1.000 1.000 1.000
order 1.000 1.000 1.000 1.000 1.000
and/or 1.000 1.000 1.000 1.000 1.000
IUEN 1.000 1.000 1.000 1.000 1.000
keywords 1.000 1.000 1.000 1.000 1.000
I am ok with 0.000 but is not okay with Execution accuracy of medium section having 0.996