ВТБ24 создает хранилище на основе DataLake для анализа клиентских данных

ВТБ24 создает новую платформу DataResearchPlatform для хранения и исследования клиентских данных на основе DataLake. По предварительной оценке, модели на основе данных о поведении клиентов способны принести банку ежегодно до 1,2 млрд руб. дополнительного дохода и 30 млрд руб. дополнительных продаж.

Новая платформа позволяет банку детально анализировать клиентское поведение. В ней аккумулируется абсолютно вся информация о заемщиках, которая в дальнейшем используется в работе заинтересованных банковских систем.

Получаемые в результате исследований прогнозы поведения позволят формировать лучшие кредитные условия и индивидуальные процентные ставки, основанные на оценке риска по кредитному продукту.

Поставленная задача в мировой практике реализуется через построение DataLake (с англ. «озёра данных») и построения на его основе исследовательской платформы обработки данных, которые загружаются на нее без каких-либо преобразований. Для работы с клиентской информацией будут использоваться средства глубинного анализа data mining.

«В 2016 г. мы реализовали крупный проект по обработке и анализу клиентской информации. Результат его внедрения  - существенное увеличение основных финансовых показателей ВТБ24 за счет улучшения клиентских предложений. И система анализирует только 60% всех имеющихся в банке данных. При создании DataResearhPlatform мы охватываем 100% данных и проверяем наши гипотезы о клиентском поведении и его влиянии на платежеспособность. Анализ этой информации позволит максимально снизить риски при кредитовании и улучшить условия банка по кредитным продуктам», - комментирует член правления ВТБ24 Александр Соколов.

«Мы заинтересованы в интеграции ИТ в бизнес. При выборе инновационных процессов мы ориентируемся именно на те проекты, внедрение которых обеспечит максимальный эффект. Создание платформы по анализу клиентских данных с применением DataLake позволит нам обеспечить не только хранение и обработку огромного массива исторических данных, но и выйти на новый уровень решения задач аналитического CRM, управления рисками, получить экспертизу в глубинном анализе данных, вырастить собственных учёных и пользователей профилей DataArchitect и DataScientist», - комментирует Сергей Русанов, член правления, директор департамента банковских и информационных технологий ВТБ24.

В настоящий момент ВТБ24 завершил первый этап работ по настройке, пилотированию механизмов, подходов и технологий, и, как итог, развернул платформу DataResearhPlatform. Сейчас она обеспечивает работу пользователей профиля DataArchitect и DataScientist с полной безопасностью доступа к данным.

Также развернута тестовая среда, обеспечена катастрофоустойчивость решения. DataResearchPlatform реализуется в экосистеме Hadoop с использованием OpenSource технологий и промышленных enterprise-решений. Следующим этапом станет реализация улучшенных моделей с учетом обогащения «сырыми данными» и выход на запланированный бизнес-эффект.

Справка

DataLake (в пер. «озеро данных») — термин, описывающий любые крупные объемы данных. Фактически это репозитарий, в котором хранится огромный объем «сырых» данных в их первоначальном формате до тех пор, пока они не будут использованы.