Corpus linguistique en mehri et jibbāli

Participants : Tous.


Responsables : Sabrina Bendjaballah (LLING) et Clément Plancq (LaTTiCe).

L'objectif de cette Tâche est de constituer un corpus d'enregistrements sonores accompagnés de transcriptions et de traductions, élaboré avec des locuteurs natifs capables de fournir des jugements de grammaticalité. Nous nous concentrons sur des enregistrements directifs visant l'élicitation de paradigmes morphologiques, puisque ce type de corpus n’existe pas à ce jour pour les langues sudarabiques modernes.

Constitution des questionnaires

Pour les deux langues, la collecte de données concernera deux champs : i) les paradigmes verbaux, ii) l'article défini et le groupe nominal.

Mehri d'Oman

  1. Système verbal. Numérisation et organisation des paradigmes verbaux, à partir des 3 sources suivantes :

    • l'Introduction du Mehri Lexicon (Johnstone 1987), environ 70 paradigmes

    • les formes verbales listées dans le corps du Mehri Lexicon

    • les nouveaux paradigmes élicités lors des missions de terrain, sur la base du travail mené par S. Bendjaballah, A. Lonnet et P. Ségéral sur l’Introduction du Mehri Lexicon (cf. Tâche 3).

  2. Système nominal. Numérisation et organisation des formes nominales données dans le Mehri Lexicon, ainsi que de celles élicitées lors des missions de terrain. Cette base de données permettra en particulier de préciser les questions suivantes, encore insuffisamment comprises à ce jour (cf. Tâche 4) :

    • l’organisation des gabarits nominaux en mehri d’Oman

    • l’allomorphie bien connue (a- ~ h-/ħ- ~ Ø) du morphème analysé par Johnstone (1970) comme un "article défini"

    • le paradigme des séquences N+Possessif

Jibbāli

  1. Système verbal. Il n’existe pas d’équivalent de l’Introduction du Mehri Lexicon pour le jibbali. Un travail systématique d'élicitation de la morphologie verbale sera mené, afin d'obtenir une quantité importante de paradigmes, qui formeront un corpus électronique comparable à celui des paradigmes mehris.

  2. Système nominal. Comme en mehri, aux noms et aux adjectifs est parfois adjoint un élément initial dans lequel Johnstone (1970a) voit un article défini. Cet "article" pose problème. Sa forme varie, incluant une réalisation zéro, suivant des conditionnements jusqu'à présent non déterminés. Il semble bien qu'il y ait là une question d'ordre phonologique, mais les conditions syntaxiques d'apparition de ce morphème devant le nom (et de son éventuelle répétition devant l'adjectif épithète postposé) sont tout aussi mystérieuses ; d'où la difficulté de distinguer entre absence et réalisation zéro. Le jibbāli possède d'autre part une particule servant à produire des constructions génitivales (de forme : Possédé particule Possesseur). Cette particule a visiblement deux allomorphes, dont le premier est ð‑ et le deuxième a la même forme que l'article défini, ɛ‑. Pour ajouter à la difficulté, la majorité des propositions relatives sont introduites par un élément qui est tantôt il‑, tantôt ð‑, tantôt ɛ‑ . Dans l'état actuel de la recherche, on n'est capable de dire ni à combien de morphèmes différents on a ici affaire, ni quelles sont les règles qui gouvernent leur emploi syntaxique et leur réalisation phonétique. Souvent, plusieurs possibilités concurrentes semblent approuvées par les locuteurs. L'identification des morphèmes impliqués passera par un travail d'élicitation s'appuyant sur des questionnaires mais aussi sur les enregistrements libres.

Aspects techniques 

Notre but est de constituer un corpus électronique qui soit interopérable avec les catalogues de ressources linguistiques (voir section métadonnées) et les données numériques existantes sur les langues afroasiatiques (voir section structuration des données).

Pour chacune des étapes du travail, nous suivrons les recommandations du TGIR Huma-Num (http://www.huma-num.fr/  (fusion des TGE Adonis et TGIR Corpus IR), plus particulièrement du consortium IRCOM (Corpus Oraux et Multimodaux, http://ircom.huma-num.fr/).

Collecte des données

Pour éliciter les paradigmes verbaux et nominaux, seule la captation audio est envisagée. Le signal sonore enregistré devra être de qualité pour permettre une analyse acoustique fine. (Format des fichiers : wav PCM ; 44,1 KHz, 16 bits.)

Chaque enregistrement devra être documenté en suivant un jeu de métadonnées défini en amont.

Encodage et structuration des données et des métadonnées

Les formats des fichiers audio et vidéo seront compatibles avec l'archivage au CINES. Les données textuelles seront encodées en UTF-8, elles seront structurées différemment selon qu'il s'agit de métadonnées ou de données avec leurs annotations.

  • Métadonnées. Le jeu de descripteurs défini par OLAC (Open Language Archives Community, http://www.language-archives.org/) peut être considéré comme le standard en matière de données linguistiques et nous nous y conformerons. Les descripteurs d'OLAC n'étant toutefois pas toujours suffisants, par exemple pour décrire les informations liées aux participants à l'enregistrement, nous utiliserons aussi le format CMDI proposé par CLARIN : en plus d'être compatible avec OLAC, son organisation en composants nous permettra de documenter les informations qui ne sont pas prises en compte par OLAC.
  • Structuration des données. Nous utiliserons LMF (Lexical Markup Framework, ISO-24613:2008, XML) comme format de diffusion des paradigmes collectés. Si le format LMF se prête bien à l'encodage de paradigmes dans une langue donnée, le modèle arborescent d'XML est moins adapté à la manipulation de données issues de langues différentes envisagée pour la Tâche 5. En plus de LMF, nous nous proposons donc de représenter les données dans le modèle défini par Gene Gragg (Univ. of Chicago) dans sa base de données morphologiques "Afroasiatic Morphological Archive" (AAMA, http://nelc.uchicago.edu/faculty/gragg). Dans AAMA, les données de près de 50 langues afroasiatiques sont représentées sous forme de graphes RDF qui forment une base interrogeable à l'aide de requêtes SPARQL. La conversion des données de LMF vers RDF est possible techniquement et l'intégration des langues SaM à AAMA serait très profitable sur le plan scientifique pour les deux parties (AAMA et OmanSaM).
  • Stockage, archivage pérenne, diffusion. Les corpus électroniques produits rejoindront la grille de services Adonis. CoCoON ((http://cocoon.huma-num.fr) anciennement CRDO) étant le centre de ressources numérique le plus approprié pour accueillir nos corpus, nous y déposerons nos ressources au sein d'une collection nouvelle, propre au projet. CoCoON permet de tirer parti des services offerts par la grille Adonis : stockage sécurisé sur les serveurs du centre de calcul de l'IN2P3 et sauvegarde à long terme grâce au CINES. Les métadonnées hébergées par CoCoON sont moissonnées par OLAC et visibles dans son catalogue (http://search.language-archives.org/).
  • Interrogation, exploitation. ELAN permet de faire des recherches multi-critères sur les divers niveaux d'annotation et offre un accès aisé aux résultats et au signal associé. Une formation des participants aux fonctionnalités de recherche avec ELAN est prévue afin d'exploiter les données de type entretien. L'exploitation des paradigmes verbaux nécessitera le développement d'un outil spécifique qui exploitera soit les données LMF versées dans une base relationnelle soit les données au format RDF, en fonction de l'avancée des développements informatiques d'AAMA. Le développement logiciel prévu comprend la conception d'un langage de requête répondant aux attentes des chercheurs, une interface homme-machine pour la saisie des requêtes et le parcours et la visualisation des résultats. L'outil logiciel sera développé sous forme d'application web dans l'optique d'être proposé in fine à la communauté des linguistes.