«Программа отбора тематически схожих документов на основе эталонной коллекции с использованием вероятностно-энтропийных подходов»

Главная
Технологии
Программы для ЭВМ
«Программа отбора тематически схожих документов на основе эталонной коллекции с использованием вероятностно-энтропийных подходов»

Программа реализует алгоритм отбора тематически схожих документов на основе эталонной коллекции текстов. Алгоритм основан на интеграции множества вероятностно-энтропийных индикаторов для выделения набора ключевых слов и словосочетаний, описывающего тему для поиска. Входными данными для программы является запрос пользователя в виде эталонной коллекции документов (около 20 документов), описывающих объект поиска: новости, статьи, записи в блогах и т.п. Выходными данными является список документов тематически схожих с заданной эталонной коллекцией и контекстно-семантический граф, отражающий основные вложенные темы в результате поиска. Для решения данной задачи программой производится моделирование темы на основе анализа вероятностно-энтропийными и семантическими методами эталонной коллекции и статистических данных Национального Корпуса Русского Языка. В программе используется дивергенции Кульбака —Лейблера, для сравнения распределений терминов, информационная энтропия, отражающая равномерность распределения терминов по документам коллекции. Также применяются веса, на основе распределении Бернулли. Дополнительно используется семантический алгоритм Гинзбурга, для определения близости двух слов. Тип реализующей ЭВМ: IBM PC-совмест. ПК

Язык программирования: Python

Вид и версия операционной системы: Linux