Le projet Concordance

Porté par le laboratoire EASTCO de l’Université de la Polynésie Française, la Bibliothèque Universitaire de l’UPF, la Maison des Sciences de l'Homme du Pacifique, le Service du Patrimoine Archivistique et Audiovisuel et Tahiti ingénierie, le projet Concordance vise à étayer la recherche lexicographique sur la langue tahitienne à partir d’un vaste corpus de textes écrits authentiques et diversifiés, libres de droit, en permettant l’interopérabilité entre la Bibliothèque scientifique numérique polynésienne Ana’ite et le Dictionnaire tahitien-français en ligne de l’Académie tahitienne. Il s’agit de permettre aux utilisateurs du dictionnaire en ligne, en partant d’un mot, de visualiser un répertoire d’occurrences de ce mot issu d’un corpus de textes tahitiens déposé sur Ana’ite. 

Concordance sur la plateforme TACT

Conçu comme une étape modélisante, le projet doit résoudre les contraintes liées à la faible qualité de restitution OCR des textes en tahitien et à la variabilité orthographique entre l’usage du 19e siècle et la norme contemporaine. Le corpus doit être transcrit par des locuteurs-scripteurs experts du tahitien pour établir deux jeux de textes : la restitution fidèle du texte dans sa graphie originelle et l’édition établie dans l’orthographe contemporaine.

Le corpus

Le corpus cible du projet Concordance est constitué des numéros de trois périodiques du 19e et du 20e siècles en langue tahitienne :

-       Te Vea no Tahiti, hebdomadaire, premier journal en langue tahitienne sous l’administration coloniale  française, 62 numéros, 2 p., 33 cm, de 1852 à 1853 ;

-       Te Vea Maohi, mensuel créé par le gouverneur Bouge, 11 numéros, 8 à 16 p., 32 cm, de 1937 à 1941 ;

-       Torea, mensuel privé d’informations générales et locales, 30 numéros, 12 à 16 p., 25 cm, de 1937 à 1939

 

L’ensemble du corpus représente une volumétrie d’environ 700 pages et 434 000 mots.

En savoir plus : contexte historique et scientifique

Le tahitien, langue du groupe océanien de la famille austronésienne, est l’une des rares langues océaniennes – environ 500 au total – pour lesquelles il existe une production écrite significative, y compris laïque, depuis le 19e siècle. Fait remarquable, l’administration coloniale française, implantée à partir de 1842, date du protectorat sur le royaume de Pomare, s’est également employée à communiquer en tahitien avec ses nouveaux administrés. Les trois périodiques cibles présentent ainsi un intérêt à la fois linguistique et historique. Les deux premiers témoignent de la vie de la colonie et de la manière dont l’administration coloniale légitimait son implantation auprès des populations autochtones. Le Torea, davantage tourné vers l’actualité internationale, révèle la perception par la petite collectivité locale des tensions et des conflits qui grondaient en Europe à la veille de la Seconde Guerre mondiale. On y voit paraître également les premières publicités en tahitien qui encouragent l’entrée progressive des natifs de l’archipel dans l’économie de marché.

Alors que les écrits de référence pour l’exemplification du vocabulaire tahitien sont souvent des recueils de tradition orale antérieure à la colonisation française ou des textes religieux, le corpus proposé pour le projet Concordance est ainsi remarquable par son caractère laïque et par son ancrage dans un quotidien marqué par les profondes mutations politiques, économiques et sociales des îles de la Société au contact de l’Occident. Ces transformations ont appelé la création des nombreux néologismes présents dans le vocabulaire contemporain. Les textes des trois périodiques, rendus manipulables par un traitement automatisé et une recherche plein texte performante, permettront d’étudier plus finement les évolutions orthographiques, lexicales et grammaticales de la langue tahitienne depuis la deuxième moitié du 19e siècle.

Des copies de ces documents, libres de droits, numérisés en 600 dpi sont déjà déposés et diffusés sur Ana'ite, sous licence Domaine Public, librement consultables en ligne et téléchargeables au format PDF.

 

Les partenaires de Concordance :

-     Université de la Polynésie Française (UPF)

-     Laboratoire EASTCO de l’UPF

-     Service Commun de la Documentation de l’UPF

-     Direction des Systèmes d’Information de l’UPF

-     Maison des Sciences de l’Homme du Pacifique

-     Service du patrimoine archivistique et audiovisuel de la Polynésie française

-     Académie tahitienne

-     Tahiti ingénierie

 

Le projet Concordance est financé par l’Université de Polynésie Française, la MSH Pacifique et l’Appel à projet Numérisation 2018 de l’infrastructure de recherche CollEx Persée.

Quelques données concernant le projet
  • Inscription modérée
  • 109 médias
  • 79%
    8%
    13%
    0%
  • Ont contribué (3): Ukat - Jacques - cmouraby -