Reconnaissance automatique des séquences verbales figées : approche transformationnelle

Description
Reconnaissance automatique des séquences verbales figées : approche transformationnelle

Please download to get full document.

View again

of 16
All materials on our website are shared by users. If you have any questions about copyright issues, please report us to resolve them. We are always happy to assist you.
Information
Category:

Electrical Engineering

Publish on:

Views: 2 | Pages: 16

Extension: PDF | Download: 0

Share
Tags
Transcript
  Reconnaissance automatique des séquences verbales figées : approche transformationnelle JOSEPH Aurélie LDI, université Paris 13 99, avenue Jean-Baptiste Clément 93430 VILLETANEUSE ITESOFT, Parc d’Andron, le Séquoia 30470 Aimargues  joseph.aurelie@gmail.com    Emmanuel Cartier LDI, université Paris 13 99, avenue Jean-Baptiste Clément 93430 VILLETANEUSE ecartier@ldi.univ-paris13.fr   Résumé Cet article a pour but de proposer une méthodologie de description des séquences verbales figées (SVF) en utilisant des traitements automatiques afin de simplifier la tâche. La finalité étant de proposer un moteur de reconnaissance automatique de SVF. La notion de séquence figée est d’abord définie. La ressource proposée est ensuite décrite (sources et généralités : structures, verbes…). Enfin, une méthodologie transformationnelle est appliquée pour décrire ses séquences en mettant en avant l’automatisation et la validation assistée par moteur de recherche. La présentation des limites actuelles pointent les difficultés de traitement des SVF et permettent d’initier de potentielles études. Mots clés Séquences figées ; transformations ; reconnaissance automatique ; moteur de recherche Introduction Découper un texte, extraire de l’information, donner du sens à cette information… tout ceci est fondamental en analyse automatique de documents. De nombreuses difficultés linguistiques existent (polysémie, inférence, figement) et nous devons les étudier, connaître leur fonctionnement, leurs particularités afin de pouvoir les repérer et les traiter adéquatement. Notre but premier est d’étudier les unités phraséologiques souvent très présentes dans les textes (30% d’un texte selon Dannell 1992). Pour ce faire nous voulons constituer une ressource de séquences verbales figées (SVF) et trouver une méthodologie la plus automatique possible afin de décrire le figement de chaque séquence, en prenant en compte les transformations syntaxiques qu'elles admettent. Nous partirons de données prises de différentes sources lexicographiques existantes pour constituer une ressource. Ces données seront soumises à des transformations et des requêtes sur moteur de recherche afin de valider leur existence. Dans un premier temps nous dégagerons des propriétés générales, notamment syntaxiques. Dans une seconde étape nous expliquerons notre méthodologie pour décrire les transformations  applicables aux SVF et surtout pour automatiser leur description. Nous proposerons alors un outil permettant d’aider le linguiste afin qu’il se base sur des données concrètes pour décider du comportement de chaque SVF. Nous verrons quels descripteurs pourront être automatisés, les difficultés qui en découle et les solutions pouvant être apportées. La ressource ainsi constituée permettra peut-être de dégager les critères définitoires des locutions verbales. De plus, les règles dégagées pourront nous aider à extraire automatiquement des candidats plus précis pour l’extraction de locutions verbales ou encore décrire les nouvelles entrées de façon plus automatique. Enfin, la ressource pourra être utile dans la reconnaissance automatique de séquences semi-figées. 1.   Notion de SF Notre étude concerne la reconnaissance automatique des séquences verbales figées (SVF) ( prendre le taureau par les cornes, casser sa pipe  …). Ces expressions polylexicales plus ou moins figées font partie de la phraséologie. Pour définir notre objet d’étude prenons la classification de la phraséologie de (Mejri 2011). Il distingue 3 types de phénomènes phraséologiques : -   Les séquences complètements figées ( au fur et à mesure, advienne que pourra  ). -   Les séquences semi-figées qui subissent des variations et des transformations ( perdre la boussole/boule  ). -   Les collocations représentant à la fois des segments répétés, des collocations terminologiques (Smadja 1993) et des collocations de la langue générale (verbe support, appropriation…) Ces 3 niveaux ne doivent pas être décrits de la même manière. Le premier est simplement à lister comme des entrées d’un dictionnaire. Le troisième peut se trouver par des statistiques lexicales, filtrées par des connaissances linguistiques (Daille 1996, Watrin 2007). Le deuxième, celui qui nous intéresse ici est beaucoup plus complexe. Il est à décrire selon les critères transformationnels répertoriés dans la littérature (en outre Gross 1996, Mejri 1997, Ben-Henia 2006, Lamiroy 2010). En effet, les SF se distinguent par le blocage de certaines transformations morphologiques, lexicales et syntaxiques possibles en syntaxe libre. Elles impliquent également un sens opaque ou du moins global. Malheureusement, tous les critères de figement (nous en détaillerons certains plus loin) ne concernent pas les SF de la même manière. C’est ce qu’on appelle le degré de figement (Gross 1996). Dans la reconnaissance automatique il faut donc pouvoir récupérer toutes les formes d’une même séquence même si celle-ci a subi des transformations, il faut pour cela décrire toutes les formes possibles. Comme pour un conjugueur de verbes, nous voulons créer une ressource qui  va détailler les différentes ‘conjugaisons’ de la SF. Nous traiterons ici, en particulier, les transformations liées à la morphologie, au lexique et à la syntaxe qui sont relatifs au syntagme verbal. 2.   Application pratique : compilation et description linguistique des SVF Nous présentons ici, la compilation de ressources linguistiques de SVF existantes. Elles seront décrites linguistiquement et exploitées afin de tirer d'éventuelles lois générales sur leur fonctionnement. Ces lois seront exploitées informatiquement, dans une phase ultérieure. Nous n’étudions ici que les SVF dont l’objet est ‘figé’. De ce fait, nous n’étudierons pas les SVF à sujets figés telles que il pleut  . 2.1.   Compilation des ressources Plusieurs sources proposant de lister et parfois même de décrire les SVF ont été utilisées. Ce sont des ressources à la fois académiques tels que le Lexique-grammaire (LGLEX) revu et corrigé en 2011 par Elsa Tolone durant sa thèse ou encore le Dictionnaire des expressions et locutions   (DEL) (A Rey et S. Chantreau 2007). Des ressources électroniques sont également utilisées comme Wikipédia ou Expressio (Georges Plannelles). Afin de récupérer le sens de certaines SVF nous avons utilisé Médiadico, Wikipédia et Expressio. Certes, leurs critères définitoires de la SVF sont parfois différents. Mais en général les données sont cohérentes et les sources venant d’études antérieures ont été validées même si nous pouvons faire des remarques quant à leur choix de sélection. sources au départ retenues LG 40000 2671 DEL 10000 4345 wikipedia 4000 3705 expressio 1500 1148 Table 1 : nombre d’entrées par sources Il en résulte un total d’environ 8000 SVF stockées dans une base de données. La table répertoriant les séquences indique l’identifiant de la locution, la locution, les étiquettes des composants, la définition, des méta-informations : (figuré, abstrait, domaine…), les sources, l’information que les transformations ont été effectuées et validées et le chemin du fichier de résultat des transformations.    Figure 1  : structure de la table séquences 2.2.   Couverture verbale La couverture verbale de la base constituée est de moins de 10% (750 verbes) par rapport au nombre de verbes du français (environ 8000). Des verbes précis sont donc à l’srcine de grand nombre de SVF. Les verbes les plus utilisés dans la formation des SVF sont, sans surprise, les deux auxiliaires, ainsi que les principaux verbes supports. Leur sens assez générique et polysémique leur confère une grande disponibilité combinatoire. avoir 961 11.59% faire 887 10.70% etre 774 9.34% mettre 475 5.73% prendre 427 5.15% donner 216 2.61% tirer 141 1.70% tenir 133 1.60% aller 123 1.48% porter 100 1.21% Table 2 : couverture verbale : nombre de locutions trouvées pour chaque verbe « introducteur » Ces statistiques montrent également que plus de 50% des locutions sont introduites par seulement 10 verbes différents. Sven Björkman (1978 : 25-26) avait déjà effectué une telle analyse. Il en avait ressorti que 85% des locutions du 20 ème  siècle étaient formées avec une quinzaine de verbes. Cependant, dans notre cas il nous faut plus de 100 verbes pour couvrir 85% des SVF.  2.3.   Etude des structures syntaxiques Le tableau suivant correspond aux structures syntaxiques des SVF c’est à dire aux informations morphosyntaxiques de chaque constituant. La liste des structures a été générée à partir de l'analyse des SVF faite par le Treetagger, ce qui implique d'éventuelles erreurs. 2.3.1.   Généralités ver det nom 19.40% ver prp det nom 11.68% ver prp nom 5.22% ver nom 4.38% ver det nom prp det nom 3.80% se ver det nom 1.93% ver det nom prp SN:hum 1.88% ver det nom prp nom 1.63% ver det nom adj 1.63% ver adv det nom 1.50% ver prp det nom prp det nom 1.45% ver det nom prp 1.24% se ver prp det nom 1.23% ver nom prp 1.03% Table 3  : % de locutions par structure (les 15 premières) Nous constatons que quelques structures couvrent un grand nombre de SVF : les deux structures VER DET NOM et VER PRP DET NOM représentent près de 30% des SVF, le reste étant disséminé sur un grand nombre de structures ; il suffit d’une douzaine de structures pour couvrir 50% des SVF. 2.3.2.   Structures verbales particulières : le cas du verbe mettre Nous avons ensuite étudié les structures verbales de chaque verbe. Ceci afin de cibler, plus précisément, d’éventuelles futures séquences candidates au figement. En effet, au lieu de chercher de façon générale des structures syntaxiques, il semble plus productif de diriger les recherches sur les verbes les plus représentatifs et leurs structures syntaxiques. Nous illustrons ici nos propos avec le verbe mettre  . Pour ce verbe, le nombre de structures recouvrant 50% des SVF est inférieur à 10. Mettre   possède souvent les mêmes structures que « être » (VER PRP DET NOM, VER PRP NOM représentent à eux deux environ 20% des locutions) : mettre sur la sellette, mettre sur le grill, mettre dans la cervelle ; mettre à pied, mettre en boite, mettre à prix, mettre à sac… Schmid Peigner la girafe ; poser un lapin ; décrocher la timbale ; battre la semelle ; faire un tour ; clouer le bec ; tenir la Tomber dans les pommes ; filer à l’anglaise ; veiller au grain ; monter au pinacle ; mettre sur la sellette…. Tomber à pic ; être en goguette ; tomber en carafe ; battre en brèche ; couler de source….
Related Search
Similar documents
View more...
We Need Your Support
Thank you for visiting our website and your interest in our free products and services. We are nonprofit website to share and download documents. To the running of this website, we need your help to support us.

Thanks to everyone for your continued support.

No, Thanks