Выделение групп используемых Интернет-ресурсов для обнаружения внутренних источников киберугроз
Исаев Сергей Владиславович, Донцов Денис Юрьевич
Институт вычислительного моделирования СО РАН
Защищенность корпоративной сети является важным аспектом успешного функционирования организации. В данной работе исследуется безопасность внутреннего периметра сети на примере Красноярского научного центра СО РАН. Существуют различные средства для предотвращения киберугроз и анализа посещаемых Интернет-ресурсов, но их быстродействие и возможность применения сильно зависят от объема входных данных. В статье рассматриваются существующие методы определения сетевых угроз с помощью анализа журналов прокси-сервера. Исследовано разделение интернет-пользователей на тематические группы для выявления аномалий. Предложен метод кластеризации Интернет-ресурсов, направленный на снижение объема входных данных путем исключения групп безопасных Интернет-ресурсов или выбора только подозрительных Интернет-ресурсов. Предложенный метод состоит из этапов: предобработка данных, выделение сессий пользователей, анализ данных и интерпретация полученных результатов. Исходными данными являются записи журнала прокси-сервера. На первом этапе из исходных данных выбираются полезные для анализа данные, после чего непрерывный поток данных делится на небольшие порции (сессии) при помощи метода ядерной оценки плотности. На втором этапе выполняется мягкая кластеризация используемых Интернет-ресурсов путем применения метода тематического моделирования. Результатом второго этапа являются неразмеченные группы Интернет-ресурсов. На третьем этапе, с помощью эксперта, происходит интерпретация полученных результатов путем анализа наиболее популярных Интернет-ресурсов в каждой группе. Метод имеет множество настроек на каждом этапе, что позволяет сконфигурировать его под любой формат и специфику входных данных. Область применения метода не ограничена. Он может быть использован как в качестве дополнительного шага предобработки с целью снижения количества входных данных, так и при выявлении аномальных данных.
кластерный анализ, тематическое-моделирование, кибербезопасность