NeuroNER icon indicating copy to clipboard operation
NeuroNER copied to clipboard

Bad conversion to brat (still don't know the reason)

Open Gregory-Howard opened this issue 7 years ago • 0 comments

After using a deploy I had this result in a conll file, I had deploy files in brat format The expression :

M. Barsacq (Jean-Claude), secrétaire général du syndicat général des fabricants d’huile et de tourteaux de France, 118, avenue Achille-Peretti, 92200 Neuilly-sur-Seine.

then the conll in result :

118 JORFARTI000000970382 1540 1543 B-__Adresse_Complete__ B-__Adresse_Complete__

, JORFARTI000000970382 1543 1544 B-__Adresse_Complete__ B-__Adresse_Complete__

But this bug produce a bad entity in a .ann brat file:

T13	--Adresse-Complete-- 1540 1543	118
T14	--Adresse-Complete-- 1543 1592	, avenue Achille-Peretti, 92200 Neuilly-sur-Seine

but spacy :

>>> import spacy
>>> nlp = spacy.load("fr")
>>> doc = nlp("M.Barsacq (Jean-Claude), secrétaire général du syndicat général d
es fabricants dhuile et de tourteaux de France, 118, avenue Achille-Peretti, 922
00 Neuilly-sur-Seine.")
>>> for e in doc.sents:
...     print(str(e)+"\n")
...
M.Barsacq (Jean-Claude), secrétaire général du syndicat général des fabricants d
huile et de tourteaux de France, 118, avenue Achille-Peretti, 92200 Neuilly-sur-
Seine.

So only one sentence.

I will try to find it.

Gregory-Howard avatar Aug 29 '17 09:08 Gregory-Howard