skip to main content
Language:
Search Limited to: Search Limited to: Resource type Show Results with: Show Results with: Search type Index

Les titres des publications scientifiques en français : fouille de texte pour le repérage de schémas lexico-syntaxiques

Français moderne, 2020 (1), p.137-156 [Peer Reviewed Journal]

Distributed under a Creative Commons Attribution 4.0 International License ;ISSN: 0015-9409

Digital Resources/Online E-Resources

Citations Cited by
  • Title:
    Les titres des publications scientifiques en français : fouille de texte pour le repérage de schémas lexico-syntaxiques
  • Author: Tanguy, Ludovic ; Rebeyrolle, Josette
  • Subjects: Humanities and Social Sciences ; Linguistics
  • Is Part Of: Français moderne, 2020 (1), p.137-156
  • Description: In this paper we study the titles of academic articles in French, and propose an overview of their syntactic structures. We automated the extraction from the HAL institutional open archive and compiled a corpus of more than 340,000 titles of articles, proceedings and chapters from different academic disciplines. We propose an inductive text mining method that allows us to identify the most productive title structures with varying levels of details (by choosing to mask lexical items or not) such as "la place de X dans X" (The place of X in X) or "X: quel X pour X ?" (X: which X for X?). We study the distribution of these structures across disciplines and identify several domain-specific title schemes. We also demonstrate how more focused queries can be run on our corpus in order to extract and analyze titles with more specific linguistic phenomena, such as chiasmus. Nous présentons dans cet article une première étude basée sur corpus visant à établir un panorama des structures que les auteurs d'articles scientifiques en français emploient pour construire les titres de leurs travaux. Nous nous basons sur un ensemble de 340 000 titres (articles de journaux, actes de conférences, chapitres d'ouvrages) extraits de l'archive ouverte institutionnelle HAL et correspondant à l'ensemble des domaines disponibles. Nous proposons une méthode automatique inductive de fouille de texte qui permet de dégager les schémas les plus productifs à différents niveaux de détails (en choisissant de faire apparaître ou non les éléments lexicaux) comme par exemple « la place de X dans X » ou « X : quel X pour X ? ». Le croisement de ces schémas avec les domaines nous permet, dans un second temps, de mettre au jour des configurations contrastées et propres aux disciplines. Nous montrons également comment des méthodes plus ciblées d'interrogation de corpus permettent d'identifier des familles de titres comme les chiasmes.
  • Publisher: CILF (conseil international de la langue française)
  • Language: French
  • Identifier: ISSN: 0015-9409
  • Source: Hyper Article en Ligne (HAL) (Open Access)

Searching Remote Databases, Please Wait