Программное средство извлечения сущностей из семантически аннотированных табличных данных
Амирасланов Ильгар Вугарович, Дородных Никита Олегович, Юрин Александр Юрьевич
Иркутский национальный исследовательский технический университет, Институт динамики систем и теории управления имени В.М. Матросова СО РАН
В настоящее время графы знаний широко применяются в различных предметных областях, например, в промышленности, торговле, финансах и социальных сетях. Граф знаний представляет собой мощное средство объединения и представления информации с использованием стандартизированных методов моделирования знаний. Однако, разработка графов знаний и, в частности, пополнение их новыми конкретными сущностями (фактами) остается сложной задачей. Использование различных информационных источников может облегчить этот процесс. Таким источником могут быть таблицы, которые потенциально содержат богатую семантическую информацию. В статье предлагается подход и его программная реализация для автоматизированного извлечения значимой информации из табличных данных в виде фактов и пополнения ими целевого графа знаний. Основной особенностью предлагаемого подхода является сочетание эвристических методов с моделями глубокого машинного обучения для семантического аннотирования табличных данных. Применимость подхода продемонстрирована на двух примерах: при анализе рынка труда Иркутской области и оценке технического состояния нефтехимического оборудования.
семантический веб, приобретение знаний, граф знаний, семантическая интерпретация таблиц, извлечение фактов, пополнение графа знаний, таблица