La base de données Prolex pour le Taln : noms propres géographiques

Claude Belleil*, IRIN
Denis Maurel**, LI/E3i
Odile Piton, CERMSEM et LADL


Résumé. Lors du traitement automatique de la langue naturelle, les dictionnaires électroniques aident à l'analyse lexicale d'un texte, à savoir sa transformation une séquence de mots étiquetés par des informations linguistiques, (des informations morphologiques et grammaticales). La présence dans le texte de mots inconnus des dictionnaire font échec à cette analyse. Les noms propres font partie de cette catégorie de mots. L'objectif du projet Prolex est de créer un dictionnaire adapté aux noms propres, sous forme d'un dictionnaire électronique relationnel (complété de règles, de grammaires locales, etc.) doté d'un environnement d'outils. Nous nous limitons ici aux noms propres de nature géographique : toponymes et gentilés, aux adjectifs dérivés et au lien qu'ils entretiennent. Notre dictionnaire électronique est construit à partir d'une base de données relationnelle que nous présentons ici. Nous justifions de notre choix d'une base de données, nous présentons les particularités des exonymes et toponymes pour l'étranger, puis nous présentons la démarche d'intégration des données relatives à la France avec celles portant sur l'étranger et de son environnement.
Mots clés : Taln, Dictionnaire électronique, base de données relationnele et environnement, nom propre géographique, toponyme, gentilé, graphies multiples, données calculées, transducteur fini.

Abstract. In natural language processing, electronic dictionaries are used for lexical parsing. Its transform a raw text in a sequence of tagged words ; these tags are morphological and grammatical information. Unknown words make problem. Proper nouns are a part of them. The french Prolex project consists in creating a "tool box" with a relational electronic dictionary of proper nouns and systems of proper noun derivative identification (with the help of rules, local grammars, etc). We present here our data base of toponyms (place names), gentiles (inhabitant names) and derivated adjectives, with their links. Our dictionary is built from the relational database that we introduce here. We justify our choice of a database and we describe the associated environment ; then we deal about the specificity of foreign terms and we present the integration of the data of France and the data of the rest of the world.
Keywords : Nlp, electronic dictionary, relational data base environment, geographic proper nouns, toponym, gentile, multiple spellings, computing method, finite state transducer.

*IRIN, Université de Nantes, 02 Rue de la Houssinière, 44072 Nantes Cedex 03.
**LI/E3i, Université de Tours, 64 Avenue Jean Portalis, 37200 Tours.