La base de données Prolex pour le Taln : noms propres géographiques
Résumé.
Lors du traitement automatique de la langue naturelle, les dictionnaires électroniques aident à
l'analyse lexicale d'un texte, à savoir sa transformation une séquence de mots
étiquetés par des informations linguistiques, (des informations morphologiques et grammaticales).
La présence dans le texte de mots inconnus des dictionnaire font échec à cette analyse. Les
noms propres font partie de cette catégorie de mots. L'objectif du projet Prolex est de créer un
dictionnaire adapté aux noms propres, sous forme d'un dictionnaire électronique relationnel
(complété de règles, de grammaires locales, etc.) doté d'un environnement d'outils.
Nous nous limitons ici aux noms propres de nature géographique : toponymes et gentilés, aux
adjectifs dérivés et au lien qu'ils entretiennent. Notre dictionnaire électronique est
construit à partir d'une base de données relationnelle que nous présentons ici. Nous
justifions de notre choix d'une base de données, nous présentons les particularités des
exonymes et toponymes pour l'étranger, puis nous présentons la démarche d'intégration
des données relatives à la France avec celles portant sur l'étranger et de son
environnement.
Abstract.
In natural language processing, electronic dictionaries are used for lexical parsing. Its transform a raw text in
a sequence of tagged words ; these tags are morphological and grammatical information. Unknown words make
problem. Proper nouns are a part of them. The french Prolex project consists in creating a "tool box"
with a relational electronic dictionary of proper nouns and systems of proper noun derivative identification
(with the help of rules, local grammars, etc). We present here our data base of toponyms (place names), gentiles
(inhabitant names) and derivated adjectives, with their links. Our dictionary is built from the relational
database that we introduce here. We justify our choice of a database and we describe the associated environment
; then we deal about the specificity of foreign terms and we present the integration of the data of France and the
data of the rest of the world.
*IRIN, Université de Nantes, 02 Rue de la Houssinière, 44072 Nantes Cedex 03.
|