+7 499 196 95 39
Программа осуществляет: выборку и извлечение объектов анализа (вычислительные задания, представленные в виде набора выделенных параметров и метрик); проведение анализа временных параметров (оценка распределения и прогнозирование времени завершения вычислительных заданий); рассылку полученных результатов в соответствующие аналитические системы/службы. Работа с источниками данных осуществляется «коллектором»: извлечение данных из системы управления потоками заданий и загрузкой, которые вносят значительный вклад во время обработки анализируемых заданий (в качестве инструментов извлечения и обработки сырых данных для нормирования временных параметров используются утилиты Apache Sqoop и Pig соответственно). Анализ данных осуществляется «предиктором»: создание предиктивной модели и использование данной модели для генерации предсказаний времени выполнения выбранных заданий на основе методов машинного обучения (используется программная платформа распределенной обработки данных Apache Spark в среде распределенной файловой системы Hadoop Distributed File System и библиотека машинного обучения Spark.MLlib). Распределение полученных результатов осуществляется «дистрибьютером»: постобработка с использованием статистического анализа и рассылка выходных/результирующих данных соответствующим системам (используется API анализируемой и контролирующей систем). Конфигурирование программы позволяет определить рабочую выборку данных и соответствующие ключевые параметры/атрибуты, а также настроить параметры модели. Python 2.7, Pig Latin