Номинация: Алгоритмы и программные решения в области ИИ и больших данных
Описание проекта: Решаемая проблема: в тематическом моделировании за 20 лет развития созданы сотни моделей, накоплен значительный опыт решения прикладных задач текстовой аналитики, однако в социо-гуманитарных исследованиях используется (за редкими исключениями) устаревшая модель LDA. Цель проекта: ввести в практику социо-гуманитарных исследований современные инструменты тематического моделирования на основе теории аддитивной регуляризации ARTM и модульной библиотеки с открытым доступом BigARTM, позволяющей гибко комбинировать модели. Задачи проекта: - интегрировать BigARTM (http://bigartm.org) в популярный пакет обработки данных Orange; - реализовать модули визуализации и настройки параметров; - отработать типовые сценарии использования ARTM в социо-гуманитарных исследованиях. Проект даст возможность неспециалистам в области машинного обучения и тематического моделирования использовать преимущества подхода BigARTM в широком спектре прикладных задач, в том числе для анализа СМИ и социальных медиа, анализа научных публикаций, патентоведения, библиотечного дела, медицины, обработки геномных данных и др.
Результаты: 1. Интеграция BigARTM в Orange; 2. Проведение междисциплинарных исследований совместно с участниками Консорциума исследователей больших данных; 3. Интеграция учебных материалов спецкурса «Вероятностное тематическое моделирование” ВМК МГУ в практико-ориентированные курсы по анализу текстов 4. Стажировка студентов ВМК МГУ в рамках данного проекта в Институте ИИ МГУ. Показатели эффективности: - увеличение скорости обработки (тематизации) данных на порядок по сравнению со стандартной реализацией PLSA/LDA в пакете Orange; - значимое улучшение качества классификации, фильтрации и поиска текстового контента в социо-гуманитарных исследованиях; - значимое улучшение интерпретируемости тем с помощью комбинирования регуляризаторов в приложениях тематического моделирования.
Освещение в СМИ: 17 марта 2022. Тематическое моделирование для информационного поиска. Научный семинар Центра прикладного анализа больших данных Томского государственного университета (https://youtu.be/opsXXerb09c?t=66). 23 ноября 2021. Технологии искусственного интеллекта и безопасность информационного пространства. Заседание Президиума РАН «Искусственный интеллект в контексте информационной безопасности» (https://youtu.be/cjRpLu6MOFE?t=6489). 15 июня 2018. Тематическое моделирование. ПостНаука (https://postnauka.ru/faq/86373). 21 марта 2016. Разведочный информационный поиск. ПостНаука (https://postnauka.ru/video/61910).
Команда проекта: МГУ имени М.В. Ломоносова Ищенко Роман Валерьевич Лобачев Виктор Анатольевич Дьяков Илья Андреевич Пойманов Дмитрий Романович Суханов Сергей Николаевич
Контакты: r.ishchenko@iai.msu.ru
Номинация: Алгоритмы и программные решения в области ИИ и больших данных