Модифицированный подход к управлению параметрами генетического алгоритма на основе глубокого обучения с подкреплением
- Привалов Константин Сергеевич, Финансовый университет при Правительстве РФ (Москва, Россия)
Актуальность исследования обусловлена тем, что эффективность классических генетических алгоритмов (ГА) при решении задач глобальной оптимизации существенно зависит от выбора вероятностей кроссовера и мутации, а фиксированные значения параметров нередко приводят к преждевременной сходимости и стабилизации популяции в окрестности локальных экстремумов. Цель работы – разработать и экспериментально оценить подходы к адаптивному управлению параметрами ГА на основе искусственных нейронных сетей и обучения с подкреплением. В рамках единой математической постановки определены признаки состояния популяции, множество действий (дискретные изменения вероятностей мутации и кроссовера pm и pc) и функция вознаграждения, отражающая улучшение качества решения между поколениями с учетом штрафа за чрезмерно высокую мутацию. Рассмотрены четыре варианта алгоритма: классический ГА с фиксированными параметрами, гибридный ГА с нейросетевым регулятором (GA+NN), ГА с табличным Q-learning (GA+RL) и предлагаемый метод управления параметрами на основе глубокого Q-обучения, использующий нейронную сеть для аппроксимации Q-функции (GA+DQN). Научная новизна работы состоит в интеграции DQN-агента в контур параметрического управления ГА в рамках формализованной модели «состояние–действие–награда» и в сопоставлении его эффективности с нейросетевым регулятором и табличным Q-обучением на задачах непрерывной оптимизации. Численные эксперименты выполнены на тестовых функциях Растригина и Шаффера при 20 независимых прогонах для каждой конфигурации. В качестве итоговых метрик использовались лучшее значение целевой функции в последнем поколении fmin(Tmax) и наилучшее значение, достигнутое за весь прогон. Показано, что GA+RL обеспечивает наибольшее улучшение качества решений. Метод GA+DQN демонстрирует умеренное улучшение относительно базового ГА, подтверждая работоспособность глубокой аппроксимации Q-функции при управлении параметрами. Нейросетевой регулятор в рассмотренной схеме обучения показывает высокую чувствительность к настройкам и в данных экспериментах уступает RL-подходам. Результаты сравнения представлены в виде графиков сходимости, анализа показателей разнообразия популяции и сводной таблицы.
генетический алгоритм, адаптивное управление параметрами, обучение с подкреплением, гибридные эволюционные алгоритмы
2026-06-05