Российские ученые из T-Bank AI Research и AIRI обучили ИИ самостоятельно адаптироваться к новым действиям
Ученые из лаборатории исследований искусственного интеллекта (ИИ) T-Bank AI Research и Института AIRI разработали первую в мире модель в области контекстного обучения (In-Context Learning), которая умеет самостоятельно обучаться новым действиям всего на нескольких примерах.
Ранее ИИ-системы умели выполнять только фиксированный набор действий, а при появлении новых задач должны были переобучаться с нуля. Это требовало дополнительных финансовых и вычислительных ресурсов, чтобы дообучить ИИ для практического применения.
Теперь же открытие российских ученых позволяет создавать ИИ-системы, которые будут адаптироваться к изменениям внешней среды и новым задачам без участия человека. Решение поможет в различных областях: от космических аппаратов до домашних роботов-помощников.
Разработанная российскими учеными модель, названная Headless-AD, умеет выполнять в пять раз больше действий, чем заложено в нее при обучении.
Один из потенциальных сценариев применения такой модели — создание персональных роботов-помощников по дому. Они могут быть обучены на стандартном наборе действий и выполнять одни и те же задачи в каждом доме. Модель Headless-AD, в свою очередь, предполагает возможность адаптации к индивидуальному контексту и особенностям быта, что позволяет домашним роботам без переобучения осваивать новые действия, необходимые для быта каждого отдельного домохозяйства. Другой пример применения модели — адаптация беспилотного автомобиля, который будет способен работать после замены детали, даже если она имеет другой принцип работы. Например, при установке двигателя с более сильной тягой или новой шины.
Результаты исследования были признаны мировым научным сообществом и представлены на одной из самых престижных и крупных конференций в области ИИ — международной конференции по машинному обучению ICML (International Conference on Machine Learning), которая в этом году проходит в 41-й раз в Вене, Австрия.
Суть открытия
Обучение в контексте (In-Context Learning) — это одна из самых перспективных областей в сфере искусственного интеллекта. Оно позволяет ИИ-агентам адаптироваться к новым ситуациям без необходимости повторного обучения.
Теоретически ИИ-агенты должны уметь адаптироваться к окружающей среде по четырем компонентам:
- Состояние (State) — то, что агент видит или знает о текущей ситуации.
- Переход (Transition) — изменение состояния агента.
- Награда (Reward) — оценка выполненного агентом действия, может быть положительной или отрицательной.
- Действие (Action) — доступные агенту способы взаимодействия со средой.
Ранее ИИ-агенты умели адаптироваться по первым трем компонентам. Например, беспилотные автомобили адаптируются к меняющимся погодным условиям (State), скорости движения (Transition) и пунктам назначения (Reward). Последняя из этих компонент — адаптация по действиям (Action) — не была до конца изучена и не использовалась в создании моделей. Агенты умели выполнять только фиксированный набор действий, а при появлении новых требовали переобучения с нуля.
Ученые из T-Bank AI Research и AIRI решили эту проблему, создав модель Headless-AD, которая научилась адаптироваться к окружающей среде по действиям. Для этого они взяли за основу модель дистилляции алгоритма (Algorithm Distillation, AD), ранее самую передовую разработку в In-Context Learning. Однако ее применение ограничено только тем набором действий, что доступен на этапе обучения.
Headless-AD была создана на основе AD с помощью трех модификаций:
- Отказ от конечного линейного слоя, который ранее ограничивал количество и набор доступных действий, — отсюда название Headless-AD.
- Кодировка действий случайными векторами — позволяет избежать необходимости дообучения для каждого нового действия, обеспечивая автоматическую адаптацию.
- Внедрение контекста, который позволяет информировать модель о доступных действиях.
Результаты экспериментов
Было проведено несколько экспериментов, сравнивающих Headless-AD и ближайшие аналоги на разных задачах. Например, в модели рекомендательных систем «Контекстуальные бандиты» задача агента — рекомендовать пользователю наиболее подходящие товары. Headless-AD может рекомендовать в пять раз больше товаров по сравнению с тем количеством, которому ее обучали. В то время как модель AD требует переобучения для каждого нового набора товаров и не способна достигать исходного качества при увеличении их количества.
При этом адаптация Headless-AD к новым действиям происходит без потери качества. Задача «Многорукие бандиты», где требуется найти оптимальное действие за наименьшее количество попыток, показала, что Headless-AD работает на уровне специализированного алгоритма, созданного конкретно под эту задачу.
Другие эксперименты также подтвердили, что Headless-AD способна к выполнению любой комбинации и количества действий, при этом сохраняя качество их выполнения и не затрачивая дополнительные вычислительные ресурсы. Это делает применение ИИ более быстрым и дешевым.
Подробное описание модели и результаты экспериментов доступны в статье In-Context Reinforcement Learning for Variable Action Spaces.
Исходный код и дополнительные материалы можно найти на GitHub.
Лаборатория T-Bank AI Research
T-Bank Al Research — это одна из немногих российских лабораторий, которые занимаются фундаментальными научными исследованиями на базе бизнеса. Лаборатория входит в состав Центра искусственного интеллекта Т-Банка.
Ученые из T-Bank Al Research исследуют наиболее перспективные области ИИ: обработку естественного языка (NLP), компьютерное зрение (CV) и рекомендательные системы (RecSys). По результатам экспериментов они пишут научные статьи для наиболее авторитетных международных научных конференций: NeurIPS, ICML, ACL, CVPR и других.
За три года существования команды более 20 статей были приняты на крупнейшие конференции и воркшопы в области ИИ. Научные работы T-Bank Al Research цитируются учеными из университетов Беркли и Стэнфорда, а также исследовательского проекта Google по изучению искусственного интеллекта Google DeepMind.
Команда курирует исследовательские лаборатории T-Bank Lab в МФТИ и Omut AI в Центральном университете и помогает талантливым студентам совершать научные открытия.
Цифровые решения для бизнеса: Сбер помогает компаниям стать технологичнее
GigaChat от Сбера консультирует пассажиров авиакомпании «Азимут»
Школьники могут поучаствовать в конкурсе по финансовой грамотности и выиграть путёвку в «Артек»
Цифровые решения для бизнеса: Сбер помогает компаниям стать технологичнее
100 лучших предпринимателей Юга России получили награды от Сбера
GigaChat от Сбера консультирует пассажиров авиакомпании «Азимут»
Студенты донских колледжей повышают финансовую грамотность вместе со Сбером
Школьники могут поучаствовать в конкурсе по финансовой грамотности и выиграть путёвку в «Артек»
Благотворительный проект для поддержки особенных детей стартовал в Краснодаре