Обработка слабоструктурированных текстовых данных для использования в моделях анализа
Макарова Елена Андреевна
Брянский государственный технический университет
При создании моделей анализа данных часто целесообразно использовать в них данные различной формы и структуры – числовые, категориальные, текстовые, видео и т.д. В статье выполнено исследование влияния текстовых данных без чёткой структуры на качество моделей анализа, выявлена зависимость точности моделей анализа от используемых способов обработки слабоструктурированных текстовых данных. Описана модель интеллектуальной обработки слабоструктурированных текстовых данных, включающая в себя методы визуализации и алгоритмы трансформации данных, предложенные автором в предыдущих работах. Предложена модификация алгоритма трансформации ошибочных написаний, построенная на использовании моделей векторного представления слов. Проведен эксперимент по использованию данных разной структуры в рамках решения задачи классификации резюме соискателей. Приведен пример обработки слабоструктурированных текстовых данных для решения задачи классификации резюме соискателей по подходящим им профессиям. Описаны этапы построения модели интеллектуальной обработки данных, включая разведочный анализ, извлечение и трансформацию данных. Описаны проблемы, свойственные данным, использующимся в эксперименте, таким как: орфографические ошибки, использование разной терминологии для описания одних и тех же понятий и т.д. Приведены примеры объединения словосочетаний с высокой степенью семантической близости и поиска ошибочных написаний распространенных в выборке терминов. Рассчитана точность применения моделей классификации, построенных на данных, обработанных различными способами. Эксперименты показали, что использование слабоструктурированных данных для этой задачи почти не даёт прироста точности модели в случае использования их без предварительной обработки и повышает точность классификации на несколько процентов в случае их корректной обработки.
слабоструктурированные текстовые данные, анализ данных, классификация данных, анализ резюме соискателей