+7 499 196 95 39
Программа реализует модель процедуры синтаксического разбора предложения в формате Национального Корпуса Русского Языка, основанную на нейросетевых алгоритмах. Программа реализована на базе алгоритмов инкрементального разбора, глубокого обучения и нейронных сетей. Входными файлами для работы программы являются предложения с указанием морфологических признаков слов в нем в формате CoNLL. Выходными данными является результат синтаксического разбора с указанием типа синтаксических связей для каждого слова и его родителя. В процессе выполнения программы последовательно, начиная с этапа получения данных, проводится экстракция дополнительных признаков с использованием классификационных нейросетевых алгоритмов и цикл разбора, включающий: формирование вектора признаков, описывающего текущее состояние разбора; его векторизация и обработка посредством классификатора на базе машины опорных векторов с линейным ядром. Тестирование разработанной программы на данных Национального Корпуса Русского Языка показывает, что средняя точность установления синтаксических отношений составляет 89.9%, установления связей без типов синтаксических отношений - 91.7%, построения дерева синтаксического разбора с указанием типов синтаксических связей - 35.9%, построение синтаксических структур предложений без типов синтаксических связей - 52.3%. Тип реализующей ЭВМ: IBM PC-совмест. ПК

Язык программирования: Python

Вид и версия операционной системы: Linux