Вы находитесь здесь

Вы находитесь здесь

  • Используя передовые алгоритмы для выявления крупномасштабных связей в древних текстах, исследователи получают представление о том, как формировались идеи и память в период 700-1500 гг.
    AKU-ISMC
Профессор Боуэн Савант: использование машинного обучения для анализа древних текстов

В ходе исследования проект Института изучения мусульманских цивилизаций достиг двух значительных успехов.

Профессор Сара Боуэн Савант из Института изучения мусульманских цивилизаций при Университете Ага Хана использует передовые алгоритмы для выявления широкомасштабных моделей в древних текстах. Она возглавляет проект KITAB (Knowledge, Information Technology and the Arabic Book — Знания, информационные технологии и арабская книга), разработанный международной командой экспертов в области информационных технологий, истории и арабского языка.

2020_03_aku_kitab_cht10250_img_3307_edit.jpg


Профессор Сара Боуэн Савант из Института изучения мусульманских цивилизаций при AKU руководит проектом KITAB (Знания, информационные технологии и арабская книга).
Copyright: 
AKU-ISMC

KITAB выступает в качестве онлайн-инструментария, который проливает свет на процесс формирования идеи и культурной памяти в период с 700 по 1500 год н.э. Применение передовых технологий и открытый доступ к проекту способствуют обмену знаниями и установлению партнёрских отношений для достижения Целей устойчивого развития.

Команда опубликовала первую версию своего исследовательского корпуса на онлайн-платформе Zenodo, которая обеспечивает открытый доступ к исследованиям.

Корпус включает тексты 1859 авторов и 4288 наименований. Общее число слов — 755 689 541. Если принимать в расчёт несколько версий одного и того же наименования, то в базе содержится 7144 единиц текста с общим числом слов 1 520 667 360. Тексты являются частью Инициативы открытых исламских текстов (OpenIT) — мультиинституционального проекта по созданию первого машинного представления корпуса архаичных исламских текстов на нескольких языках, включая арабский, персидский, османский турецкий и урду. Инициатива направлена на стимулирование компьютерного анализа письменных традиций, при этом KITAB является одним из основных поставщиков арабских текстов.

На сегодняшний день большая часть материалов на арабском языке была получена благодаря онлайн-коллекции архаичных и современных арабских текстов, находящихся в открытом доступе. В данное время команда и её партнёры составляют аннотации к этим текстам.

Все основные версии корпуса, а также аналитические наборы данных, сгенерированные на его основе с использованием различных методов, будут по-прежнему публиковаться на платформе Zenodo в рамках обязательства проекта по открытому доступу.

ЖИЗНЕОПИСАНИЕ ИБН ИСХАКА

В рамках этой работы команда проекта совместно с Катарской национальной библиотекой создаёт онлайн-корпус и цифровую исследовательскую систему для работы с Сирой (жизнеописанием) Ибн Исхака (ум. в 767 г.). Сира — важный пример текста, распространённого в ранней арабской традиции. До наших дней не сохранилось ни одного полного оригинального текста. Однако имеется несколько фрагментированных версий в сотнях других книг, начиная с IX века и заканчивая ранним Новым временем. К ним относятся произведения известных учёных того времени, в том числе толкование Ибн Хишама (ум. в 828 г.), которое содержит две из четырех оригинальных частей жизнеописания, но часто ошибочно упоминается как полная версия Сиры Ибн Исхака.

Члены команды также стремятся повысить точность сопоставления текстов, содержащих разделы Сиры, и сделать их доступными для онлайн-изучения. Возможные вопросы исследования касаются способов создания, передачи и распространения текстов в разные эпохи, начиная с периода, в котором жил Ибн Исхак, и заканчивая настоящим временем.

Цифровая исследовательская система опирается на инновации в оптическом распознавании символов, обнаружении повторного использования текста, моделировании и визуализации данных, чтобы дать более подробное представление об этом важном тексте.