Тематизатор

Номинация:
Алгоритмы и программные решения в области ИИ и больших данных

Описание проекта:
Решаемая проблема: в тематическом моделировании за 20 лет развития созданы сотни моделей, накоплен значительный опыт решения прикладных задач текстовой аналитики, однако в социо-гуманитарных исследованиях используется (за редкими исключениями) устаревшая модель LDA.
Цель проекта: ввести в практику социо-гуманитарных исследований современные инструменты тематического моделирования на основе теории аддитивной регуляризации ARTM и модульной библиотеки с открытым доступом BigARTM, позволяющей гибко комбинировать модели.
Задачи проекта:
- интегрировать BigARTM (http://bigartm.org) в популярный пакет обработки данных Orange;
- реализовать модули визуализации и настройки параметров;
- отработать типовые сценарии использования ARTM в социо-гуманитарных исследованиях.
Проект даст возможность неспециалистам в области машинного обучения и тематического моделирования использовать преимущества подхода BigARTM в широком спектре прикладных задач, в том числе для анализа СМИ и социальных медиа, анализа научных публикаций, патентоведения, библиотечного дела, медицины, обработки геномных данных и др.

Результаты:
1. Интеграция BigARTM в Orange;
2. Проведение междисциплинарных исследований совместно с участниками Консорциума исследователей больших данных;
3. Интеграция учебных материалов спецкурса «Вероятностное тематическое моделирование” ВМК МГУ в практико-ориентированные курсы по анализу текстов
4. Стажировка студентов ВМК МГУ в рамках данного проекта в Институте ИИ МГУ.
Показатели эффективности:
- увеличение скорости обработки (тематизации) данных на порядок по сравнению со стандартной
реализацией PLSA/LDA в пакете Orange;
- значимое улучшение качества классификации, фильтрации и поиска текстового контента в социо-гуманитарных исследованиях;
- значимое улучшение интерпретируемости тем с помощью комбинирования регуляризаторов в приложениях тематического моделирования.

Освещение в СМИ:
17 марта 2022. Тематическое моделирование для информационного поиска. Научный семинар Центра прикладного анализа больших данных Томского государственного университета (https://youtu.be/opsXXerb09c?t=66).
23 ноября 2021. Технологии искусственного интеллекта и безопасность информационного пространства. Заседание Президиума РАН «Искусственный интеллект в контексте информационной безопасности» (https://youtu.be/cjRpLu6MOFE?t=6489).
15 июня 2018. Тематическое моделирование. ПостНаука (https://postnauka.ru/faq/86373).
21 марта 2016. Разведочный информационный поиск. ПостНаука (https://postnauka.ru/video/61910).

Команда проекта:
МГУ имени М.В. Ломоносова
Ищенко Роман Валерьевич
Лобачев Виктор Анатольевич
Дьяков Илья Андреевич
Пойманов Дмитрий Романович
Суханов Сергей Николаевич

Контакты:
r.ishchenko@iai.msu.ru

Номинация: Алгоритмы и программные решения в области ИИ и больших данных

Год: 2023

Результат: Перспективный проект