addok icon indicating copy to clipboard operation
addok copied to clipboard

Indexation housenumber en B et BIS de manière distincte

Open fhervet opened this issue 7 years ago • 5 comments

Bonjour,

J'ai des soucis d'indexation des housenumber quand sur une rue j'ai deux numéros similiaires mais bien distincts (Exemple 30 B et 30 BIS). Peu importe si je requête le B ou le BIS, j'ai toujours le même numéro en réponse. En relancant plusieurs fois l'indexation, la réponse change d'ailleurs, me donnant parfois toujours le B ou toujours le BIS (dépendant de l'ordre dans lequel sont indexés les numéros ?).

J'indexe le document suivant par exemple :

{ "_id" : "53543a323231323039350000", "id" : "53543a323231323039350000", "type" : "street", "postcode" : "95660", "citycode" : "95134", "hexacleStreet" : "951342223C", "lat" : "49.1297", "lon" : "2.22118", "context" : "95, Val-d'oise, Ile de france", "importance" : 1, "userLabel" : "RUE DE PONTOISE", "name" : "RUE DE PONTOISE", "housenumbers" : { "30 BIS" : { "hexacleNumber" : "9513422624", "lat" : "49.1281", "lon" : "2.21699" }, "30 B" : { "hexacleNumber" : null, "lat" : "0.0", "lon" : "0.0" } }, "cityAfnorLabel" : "CHAMPAGNE SUR OISE", "userCityLabel" : "CHAMPAGNE SUR OISE", "city" : "CHAMPAGNE SUR OISE" }

J'utilise également les plugins addok_france et addok_fr, avec la conf suivante :

PROCESSORS_PYPATHS = [ "addok.helpers.text.tokenize", "addok.helpers.text.normalize", "addok.helpers.text.synonymize", "addok_france.fold_ordinal", "addok_france.glue_ordinal", "addok_france.flag_housenumber", "addok_fr.phonemicize", ]

J'ai essayé différentes choses, notamment de ne plus utiliser les plugins addok_france et addok_fr, mais sans succès.

Est-ce que quelque chose m'échappe ou est-ce qu'il n'est pas possible aujourd'hui d'indexer de manière distincte un B et un BIS ?

Merci par avance.

fhervet avatar Oct 30 '18 09:10 fhervet

C'est bien addok-france qui remplace "bis" par "b": https://github.com/addok/addok-france/blob/master/addok_france/utils.py#L18

Notamment parce que dans la BAN il y a plein de cas où B est utilisé à la place de BIS, donc on aligne tout. Mais de tête, il me semblait qu'on avait vérifié et trouvé aucun cas où une même rue combinait des A, B, C et des BIS, TER… @cquest tu as la mémoire plus fraîche sur le sujet?

yohanboniface avatar Oct 30 '18 09:10 yohanboniface

Et si malheureusement ça existe des cas de B + BIS distincts vus sur le terrain. Ils sont difficiles à trouver dans les bases de référence car souvent elles ont tout aligné sur l'un ou l'autre.

Dans la BAN il y a beaucoup de B + BIS qui sont en fait des BIS doublonnés (La Poste a apporté des BIS et le cadastre des B), ce qui est encore plus problématique à démêler...

cquest avatar Oct 30 '18 17:10 cquest

Je confirme, à priori 7600 cas en France d'après le référentiel Hexaclé.

Laurent-Hervaud avatar Oct 30 '18 17:10 Laurent-Hervaud

Merci pour vos retours. Du coup, si je n'utilisais pas addok-france, à priori j'aurai du être capable d'indexer de manière distincte mes adresses en B et en BIS n'est-ce pas ?

fhervet avatar Oct 31 '18 09:10 fhervet

Oui, mais cela va poser d'autres problèmes sur les recherches si on n'indique pas le bon B ou BIS

Ce n'est pas insolvable, mais ça demande de se repencher sur la question.

cquest avatar Oct 31 '18 11:10 cquest