Изобретение относится к области определения контекста слов и текстовых файлов. Технический результат заключается в повышении эффективности, достоверности и скорости определения контекста слова, текстового фрагмента и текстового файла. Технический результат достигается за счет подсчета расстояний между словами для определения контекстного значения слова с привлечением весовой функции и метрик слов по формуле Ck,n= ?i=1 (Mi x f(Li)); где Ck,n - мера, определяющая контекстное значение слова W1, индекс k для Ck,n определяет, к какому из возможных значений W2 относится данная мера, где k=1,…,n, n - число возможных значений слова W1, где n=2?3, Mi - метрика слова-характеристики W3, Li - расстояние от слова W2 до заданного слова W3, i - номер слова-характеристики в исследуемом тексте для слова W3, f(Li) - весовая функция от Li расстояний между словами W1, W2 и W3, m - число слов-характеристик, найденных в исследуемом текстовом файле. 1. Способ количественной оценки контекстных значений отдельных слов в текстовом файле путем численного анализа семантического графа слов в документе, выполняемый на компьютерном устройстве, где способ включает:
предоставление текстового файла для анализа,
использование имеющегося тематического словаря: в первой колонке - слова (W1), для которых определяется контекст, во второй - варианты возможного значения контекста (W2), в третьей - слова (W3), семантически связанные с W2,
подсчет расстояний между словами для определения контекстного значения слова с привлечением весовой функции и метрик слов по формуле Ck,n= ?i=1 (Mi x f(Li));
где Ck,n - мера, определяющая контекстное значение слова W1, индекс k для Ck,n определяет, к какому из возможных значений W2 относится данная мера, где k=1,…,n, n - число возможных значений слова W1, где n=2?3, Mi - метрика слова-характеристики W3, Li - расстояние от слова W2 до заданного слова W3, i - номер слова-характеристики в исследуемом тексте для слова W3, f(Li) - весовая функция от Li расстояний между словами W1, W2 и W3, m - число слов-характеристик, найденных в исследуемом текстовом файле;
определение контекстного значения с учетом расстояния между корневым словом W1 и словами-значениями W2 или словами-характеристиками W3, расстояние L исчисляется количеством слов N, размещенных между корневым словом W2 и словом-характеристикой W3, L=N+1,
в случае если слово W3 встречается в текстовом файле несколько раз, вклады от каждого из этих слов войдут в указанную сумму, при этом списки слов W3, соответствующие разным словам W2, могут перекрываться, слово W2, для которого получена наибольшая сумма, и определяет контекстное значение слова W1.
2. Способ по п. 1, отличающийся тем, что контекстное значение базового слова W1 определяют в отсутствии одного или всех слов-значений W2 за счет наличия в текстовом файле слов из набора W3.
3. Способ по п. 1, отличающийся тем, что область определения контекстного значения задается с помощью весовой функции, путем конфигурирования программного обеспечения или непосредственно самой программой.
4. Способ по любому из пп. 1-3, отличающийся тем, что для определения достоверности вычисленного контекстного значения слова используют распределение плотности вероятности для С или неравенство Чебышева.
5. Способ количественной оценки контекстных значений текстовых файлов или их текстовых фрагментов путем численного анализа семантического графа слов в документах, выполняемый на компьютерном устройстве, где способ предусматривает осуществление способа по любому из пп. 1-4 и определение контекстного значения текстового файла или фрагмента его текста путем суммирования значений Ck,n для каждого из найденных в нем слов из первой колонки таблицы и сравнения вычисленных мер между собой, наибольшие из них и будут определять контекстное значение текстового файла или его текстового фрагмента.
6. Способ по п. 5, отличающийся тем, что фрагментом текстового файла является неполная часть текста в файле: один или несколько абзацев, или одна, или несколько страниц.
7. Способ по любому из пп. 5-6, отличающийся тем, что для определения контекстного значения текстового файла или его фрагмента вычисляется сумма величин Ck,n для всех слов W2 и W3, где весовая функция расстояний между словами W1, W2 и W3, и слово W1, для которого получено наибольшее значение суммы С, и определяет контекст текстового файла или его фрагмента.
предоставление текстового файла для анализа,
использование имеющегося тематического словаря: в первой колонке - слова (W1), для которых определяется контекст, во второй - варианты возможного значения контекста (W2), в третьей - слова (W3), семантически связанные с W2,
подсчет расстояний между словами для определения контекстного значения слова с привлечением весовой функции и метрик слов по формуле Ck,n= ?i=1 (Mi x f(Li));
где Ck,n - мера, определяющая контекстное значение слова W1, индекс k для Ck,n определяет, к какому из возможных значений W2 относится данная мера, где k=1,…,n, n - число возможных значений слова W1, где n=2?3, Mi - метрика слова-характеристики W3, Li - расстояние от слова W2 до заданного слова W3, i - номер слова-характеристики в исследуемом тексте для слова W3, f(Li) - весовая функция от Li расстояний между словами W1, W2 и W3, m - число слов-характеристик, найденных в исследуемом текстовом файле;
определение контекстного значения с учетом расстояния между корневым словом W1 и словами-значениями W2 или словами-характеристиками W3, расстояние L исчисляется количеством слов N, размещенных между корневым словом W2 и словом-характеристикой W3, L=N+1,
в случае если слово W3 встречается в текстовом файле несколько раз, вклады от каждого из этих слов войдут в указанную сумму, при этом списки слов W3, соответствующие разным словам W2, могут перекрываться, слово W2, для которого получена наибольшая сумма, и определяет контекстное значение слова W1.
2. Способ по п. 1, отличающийся тем, что контекстное значение базового слова W1 определяют в отсутствии одного или всех слов-значений W2 за счет наличия в текстовом файле слов из набора W3.
3. Способ по п. 1, отличающийся тем, что область определения контекстного значения задается с помощью весовой функции, путем конфигурирования программного обеспечения или непосредственно самой программой.
4. Способ по любому из пп. 1-3, отличающийся тем, что для определения достоверности вычисленного контекстного значения слова используют распределение плотности вероятности для С или неравенство Чебышева.
5. Способ количественной оценки контекстных значений текстовых файлов или их текстовых фрагментов путем численного анализа семантического графа слов в документах, выполняемый на компьютерном устройстве, где способ предусматривает осуществление способа по любому из пп. 1-4 и определение контекстного значения текстового файла или фрагмента его текста путем суммирования значений Ck,n для каждого из найденных в нем слов из первой колонки таблицы и сравнения вычисленных мер между собой, наибольшие из них и будут определять контекстное значение текстового файла или его текстового фрагмента.
6. Способ по п. 5, отличающийся тем, что фрагментом текстового файла является неполная часть текста в файле: один или несколько абзацев, или одна, или несколько страниц.
7. Способ по любому из пп. 5-6, отличающийся тем, что для определения контекстного значения текстового файла или его фрагмента вычисляется сумма величин Ck,n для всех слов W2 и W3, где весовая функция расстояний между словами W1, W2 и W3, и слово W1, для которого получено наибольшее значение суммы С, и определяет контекст текстового файла или его фрагмента.