Vous êtes ici

Vous êtes ici

  • À l’aide d’algorithmes avancés permettant de mettre au jour des séquences textuelles largement représentées dans les textes anciens, les chercheurs comprennent mieux la façon dont les idées et la mémoire étaient formées entre 700 et 1500 EC.
    AKU-ISMC
Sarah Bowen Savant : utiliser l’apprentissage automatique sur des textes anciens

Ce projet mené par l’ISMC a connu deux avancées majeures au cours de la période de recherche.

La Professeure Sarah Bowen Savant, membre de l’Institut pour l’étude des civilisations musulmanes de l’Université Aga Khan (AKU-ISMC), utilise des algorithmes avancés pour mettre au jour des séquences textuelles largement représentées dans les textes anciens. Elle dirige le projet KITAB (Knowledge, Information Technology and the Arabic Book - Savoir, technologies de l’information et le livre arabe), qui a été créé par une équipe internationale d’experts en informatique, en histoire et en langue arabe.

2020_03_aku_kitab_cht10250_img_3307_edit.jpg


La Professeure Sarah Bowen Savant, membre de l’Institut pour l’étude des civilisations musulmanes de l’Université Aga Khan, dirige le projet KITAB (Knowledge, Information Technology and the Arabic Book - Savoir, technologies de l’information et le livre arabe).
Copyright: 
AKU-ISMC

Le KITAB constitue une boîte à outils en ligne qui met en lumière la façon dont les idées et la mémoire étaient formées entre 700 et 1500 EC. L’application de technologies avancées et la nature ouverte du projet corroborent les efforts visant à promouvoir le partage des connaissances et les partenariats dans le cadre des Objectifs de développement durable.

L’équipe a désormais terminé la première publication de l’ensemble de son corpus sur Zenodo, une plateforme en ligne qui soutient le libre accès à la recherche.

Le corpus compte 1 859 auteurs et 4 288 références, pour un total de 755 689 541 mots. En prenant en compte les différentes versions d’une même référence, le corpus contient au total 7 144 références pour 1 520 667 360 mots. Ces textes sont disponibles dans le cadre d’OpenIT, l’Open Islamicate Texts Initiative, un projet multi-institutionnel dont le but est de constituer le premier corpus exploitable par une machine de textes islamiques prémodernes en plusieurs langues, dont l’arabe, le persan, le turc ottoman et l’ourdou. L’objectif de cette initiative est d’encourager l’analyse numérique de ces traditions écrites. Le KITAB est le principal contributeur du projet en ce qui concerne les textes en langue arabe.

À ce jour, la plupart des textes en langue arabe ont été obtenus à partir de collections en ligne en libre accès de textes arabes prémodernes et modernes. Ils sont actuellement annotés par l’équipe et ses partenaires.

Ce projet étant engagé en faveur du libre accès, l’équipe continuera de publier sur Zenodo toutes les versions majeures du corpus ainsi que les ensembles de données analytiques créés à partir du corpus à l’aide de différentes méthodes.

SÎRA D’IBN ISHÂQ

Dans le cadre de ce projet, l’équipe travaille également avec la Bibliothèque nationale qatarie afin de créer un corpus en ligne et un canal de recherche numérique sur la Sîra d’Ibn Ishâq (mort vers 767). La Sîra est l’exemple par excellence de la façon dont les textes ont été dispersés dans la tradition arabe ancienne. Il n’en subsiste plus aucun texte complet et original aujourd’hui. Il existe cependant de nombreuses versions fragmentées et dispersées au sein de centaines d’autres livres publiés entre le 9e siècle et notre ère. Parmi ces versions figurent des témoignages bien connus du texte, notamment le commentaire d’Ibn Hichâm (mort vers 828), qui contient deux des quatre parties originales et que l’on confond souvent, à tort, avec la Sîra complète d’Ibn Ishâq.

Les membres de l’équipe cherchent également à améliorer les alignements entre les textes qui contiennent des sections de la Sîra et à les rendre disponibles pour les étudier en ligne. Les axes de recherche potentiels pourraient concerner les modes de production, de transmission et de circulation des textes depuis l’époque d’Ibn Ishâq jusqu’à nos jours.

Le canal de recherche numérique s’appuie sur la reconnaissance optique de caractères, la détection de réutilisation de texte et la modélisation et la visualisation de données pour mettre en lumière cet important texte.