«Программный модуль распознавания структуры таблиц и извлечения табличных данных для машиночитаемых PDF-документов»

Главная
Технологии
Программы для ЭВМ
«Программный модуль распознавания структуры таблиц и извлечения табличных данных для машиночитаемых PDF-документов»

Программа предназначена для подготовки табличных данных, полученных из PDF документов, к последующему анализу/обработке путём их структуризации и представления в формате JSON. Табличные данные извлекаются из документов с помощью программы PDFMiner и сохраняются в файл в формате XML, который содержит информацию о макете страницы, а также положении каждого символа на странице, его шрифте и размере. На основе этой информации для каждой страницы производится реконструкция таблиц: поиск надписей по координатам символов, распознавание строк-заголовков и строк с данными на основе координат надписей по оси ординат, проверка корректности распознавания таблицы по количеству надписей во всех найденных строках. В программном модуле учитывается ряд частных случаев, к примеру наличие комментариев внутри таблиц. После реконструкции всех таблиц они записываются в формат JSON в виде двумерных массивов. Python