Российские ученые из T-Bank AI Research и AIRI обучили ИИ самостоятельно адаптироваться к новым действиям

Юга.ру
 © Фото BoliviaInteligente с сайта Unsplash.com

Фото BoliviaInteligente с сайта Unsplash.com

Ученые из лаборатории исследований искусственного интеллекта (ИИ) T-Bank AI Research и Института AIRI разработали первую в мире модель в области контекстного обучения (In-Context Learning), которая умеет самостоятельно обучаться новым действиям всего на нескольких примерах.

Ранее ИИ-системы умели выполнять только фиксированный набор действий, а при появлении новых задач должны были переобучаться с нуля. Это требовало дополнительных финансовых и вычислительных ресурсов, чтобы дообучить ИИ для практического применения.

Теперь же открытие российских ученых позволяет создавать ИИ-системы, которые будут адаптироваться к изменениям внешней среды и новым задачам без участия человека. Решение поможет в различных областях: от космических аппаратов до домашних роботов-помощников.

Разработанная российскими учеными модель, названная Headless-AD, умеет выполнять в пять раз больше действий, чем заложено в нее при обучении.

Один из потенциальных сценариев применения такой модели — создание персональных роботов-помощников по дому. Они могут быть обучены на стандартном наборе действий и выполнять одни и те же задачи в каждом доме. Модель Headless-AD, в свою очередь, предполагает возможность адаптации к индивидуальному контексту и особенностям быта, что позволяет домашним роботам без переобучения осваивать новые действия, необходимые для быта каждого отдельного домохозяйства.  Другой пример применения модели — адаптация беспилотного автомобиля, который будет способен работать после замены детали, даже если она имеет другой принцип работы. Например, при установке двигателя с более сильной тягой или новой шины.

Результаты исследования были признаны мировым научным сообществом и представлены на одной из самых престижных и крупных конференций в области ИИ — международной конференции по машинному обучению ICML (International Conference on Machine Learning), которая в этом году проходит в 41-й раз в Вене, Австрия.

  • Рис. 1. Модель Headless-AD может работать с различными типами действий независимо от их количества и комбинации: теми, на которых ее обучали, и теми, с которыми она сталкивается впервые.

Суть открытия

Обучение в контексте (In-Context Learning) — это одна из самых перспективных областей в сфере искусственного интеллекта. Оно позволяет ИИ-агентам адаптироваться к новым ситуациям без необходимости повторного обучения.

Теоретически ИИ-агенты должны уметь адаптироваться к окружающей среде по четырем компонентам:

  • Состояние (State) — то, что агент видит или знает о текущей ситуации.
  • Переход (Transition) — изменение состояния агента.
  • Награда (Reward) — оценка выполненного агентом действия, может быть положительной или отрицательной.
  • Действие (Action) — доступные агенту способы взаимодействия со средой.

Ранее ИИ-агенты умели адаптироваться по первым трем компонентам. Например, беспилотные автомобили адаптируются к меняющимся погодным условиям (State), скорости движения (Transition) и пунктам назначения (Reward). Последняя из этих компонент — адаптация по действиям (Action) — не была до конца изучена и не использовалась в создании моделей. Агенты умели выполнять только фиксированный набор действий, а при появлении новых требовали переобучения с нуля.

Ученые из T-Bank AI Research и AIRI решили эту проблему, создав модель Headless-AD, которая научилась адаптироваться к окружающей среде по действиям. Для этого они взяли за основу модель дистилляции алгоритма (Algorithm Distillation, AD), ранее самую передовую разработку в In-Context Learning. Однако ее применение ограничено только тем набором действий, что доступен на этапе обучения.

Headless-AD была создана на основе AD с помощью трех модификаций:

  • Отказ от конечного линейного слоя, который ранее ограничивал количество и набор доступных действий, — отсюда название Headless-AD.
  • Кодировка действий случайными векторами — позволяет избежать необходимости дообучения для каждого нового действия, обеспечивая автоматическую адаптацию.
  • Внедрение контекста, который позволяет информировать модель о доступных действиях.

Результаты экспериментов

Было проведено несколько экспериментов, сравнивающих Headless-AD и ближайшие аналоги на разных задачах. Например, в модели рекомендательных систем «Контекстуальные бандиты» задача агента — рекомендовать пользователю наиболее подходящие товары. Headless-AD может рекомендовать в пять раз больше товаров по сравнению с тем количеством, которому ее обучали. В то время как модель AD требует переобучения для каждого нового набора товаров и не способна достигать исходного качества при увеличении их количества.

При этом адаптация Headless-AD к новым действиям происходит без потери качества. Задача «Многорукие бандиты», где требуется найти оптимальное действие за наименьшее количество попыток, показала, что Headless-AD работает на уровне специализированного алгоритма, созданного конкретно под эту задачу.

  • Рис. 1. Сравнение качества работы Headless-AD с AD, специализированным алгоритмом Thompson Sampling и случайным агентом (Random). График c кумулятивной ошибкой показывает, насколько далеко предсказание модели от идеального варианта. Искривление графи

Другие эксперименты также подтвердили, что Headless-AD способна к выполнению любой комбинации и количества действий, при этом сохраняя качество их выполнения и не затрачивая дополнительные вычислительные ресурсы. Это делает применение ИИ более быстрым и дешевым.

Подробное описание модели и результаты экспериментов доступны в статье In-Context Reinforcement Learning for Variable Action Spaces.

Исходный код и дополнительные материалы можно найти на GitHub.

Лаборатория T-Bank AI Research

T-Bank Al Research — это одна из немногих российских лабораторий, которые занимаются фундаментальными научными исследованиями на базе бизнеса. Лаборатория входит в состав Центра искусственного интеллекта Т-Банка.

Ученые из T-Bank Al Research исследуют наиболее перспективные области ИИ: обработку естественного языка (NLP), компьютерное зрение (CV) и рекомендательные системы (RecSys). По результатам экспериментов они пишут научные статьи для наиболее авторитетных международных научных конференций: NeurIPS, ICML, ACL, CVPR и других.

За три года существования команды более 20 статей были приняты на крупнейшие конференции и воркшопы в области ИИ. Научные работы T-Bank Al Research цитируются учеными из университетов Беркли и Стэнфорда, а также исследовательского проекта Google по изучению искусственного интеллекта Google DeepMind.

Команда курирует исследовательские лаборатории T-Bank Lab в МФТИ и Omut AI в Центральном университете и помогает талантливым студентам совершать научные открытия.