Un dictionnaire de Noms Propres Géographiques pour Intex

Denis Maurel*, LI/E3i
Odile Piton, CERMSEM


Résumé. Intex est un environnement qui permet aux linguistes de décrire les langues naturelles et de traiter les textes en temps réel notamment par des grammaires et grâce à des dictionnaires de mots simples et de mots composés. Notre apport concerne les dictionnaires de noms propres géographiques. Dans une première partie, nous donnons quelques exemples de liens entre les mots géographiques à partir de règles dérivationnelles. Nous consacrerons la deuxième partie à la description de notre dictionnaire de noms propres pour Intex. Nous respectons le format des dictionnaires utilisés par Intex, spécialement en ce qui concerne les marques syntaxiques (nom ou adjectif, genre et nombre). Nous indiquons les traits qu'il nous a paru pertinent d'ajouter : des traits sémantiques spécifiques aux différentes classes de mots (hydronyme, toponyme, gentilé,...), des marques géographiques ou administratives (code Iso du Pays selon la norme ISO-3166, et type de toponyme tel que "ville" ou "département"=, et les traits syntaxiques marquant les particularités relatives aux déterminant qui sont soit "interdits ou contraints" (ex : "Tours", mais aussi "le vieux Tours"), soit prennent la forme de "faux déterminants" (ex : "Les Sables d'Olonnes").
Mots clés : Nom Propre Géographique, morphologie dérivationnelle, toponyme, gentilé, Traitement Automatique de la Langue (TAL), transducteur, dictionnaire de Noms Propres.

Abstract. Intex is a development environment that allows linguists to describe natural languages. It provides tools to apply dictionaries and grammars to large texts in real time. It uses dictionaries of simple and compound words. Our work is to make dictionaries of geographic proper names. First of all, we give some examples of links between geographic proper names, according to derivative rules. Our second part presents our Proper Name Dictionary for Intex. It respects the shape of the other dictionaries used by Intex, as regards the syntactic marks (name or adjective, gender and number). We stress out the features that have seemed clever to add : semantic features for word classes (as hydronym, toponym, inhabitant name...), geographic or administrative features (Iso Cod according to ISO-3166 norm, type of toponyms like "town" or "country") and syntactic features for "forbidden or constrained determiners" (b.e. "Tours" and "le vieux Tours") or "false determiners" (b.e. "Les Sables d'Olonnes").
Keywords : Geographic Proper Names, morphological derivation, place name, inhabitant name, Natural Language Processing (NLP), relational finite state transducer, Proper Name Dictionaries.

*LI/E3i, Université François-Rabelais, 64 Avenue Jean Portalis, 37200 Tours, France.