Руководство по Big Data: новые подходы к обработке данных, которые изменят мир
Cover
Начальник управления процессов и стандартов моделирования ВТБ

Руководство по Big Data: новые подходы к обработке данных, которые изменят мир

Коммерческие компании, государственные и общественные организации всегда стремились узнать как можно больше о своей аудитории. Возраст, предпочтения, доходы, транзакции — чем больше данных накапливалось у организации о своих клиентах, тем более точными и адресными могли быть коммуникации и предложения. Сейчас практически каждое действие человека оставляет цифровой след в сети: поисковые запросы, звонки и смс-сообщения, перемещения, покупки. Все это формирует массивы Big Data — незаменимый источник знания о потребителе. Как работают большие данные, какие возможности они открывают перед бизнесом и потребителем и почему будущее уже наступает Хайтек+ рассказал Юрий Карев, начальник управления процессов и стандартов моделирования ВТБ.

Big Data — относительно новый термин, который впервые использовал главный редактор научного журнала Nature Клиффорд Линч в 2008 году. Он назвал «большими данными» все массивы неоднородной и зачастую неструктурированной информации, для которых скорость накопления превышала 150 Гб в сутки. На тот момент целенаправленно сбором таких объемов данных занимались скорее в научных целях, но спустя уже четыре года сопоставимые объемы начали появляться и в других, практических областях деятельности, поэтому активизировались активности с тем чтобы найти им практическое применение и добыть из них ценность.

Источниками больших данных были интернет — блоги, соцсети, сайты, форумы; корпоративная информация — архивы, транзакции, звонки, базы данных; показания считывающих устройств — камеры видеонаблюдения, метеорологические датчики, устройства геолокации в мобильных телефонах и многое другое.

Рынок Big Data стремительно рос начиная с 2012 года. По данным агентства ResearchAndMarkets, в 2019 году мировой рынок аналитики больших данных оценивался в $41,85 млрд.

Эксперты предсказывают, что рынок продолжит рост до $115,13 млрд при средней динамике в 11,9% в течение прогнозируемого периода с 2020 по 2028 год. В связи с этим будет увеличиваться и мировой объем цифровых данных. По прогнозу IDC, он вырастет до 175 зеттабайт (40 зеттабайт в 2020 году).

В настоящее время крупнейшие по выручке рынки больших данных — это США (53% от мирового рынка, $100 млрд), Япония (5,1%, $9,6 млрд) и Великобритания (4,9%, $9,2 млрд). Российский рынок пока занимает незначительную долю и оценивается в 45 млрд рублей. Согласно разработанной Ассоциацией больших данных (АБД) «Стратегии развития рынка», вклад технологий Big Data в ВВП может составить от 0,3 до 1,8% к 2024 году. Базовый прогноз предполагает прирост рынка до 100 млрд рублей к 2024 году. 

В 2020 году из-за пандемии коронавируса цифровая трансформация по всему миру значительно ускорилась. Наиболее заметный рост реализации проектов, связанных с большими данными, в прошлом году показали производственные компании, государственный сектор и здравоохранение. Положительное влияние на потенциальный рост рынка Big Data в России оказало развитие стимулирующей нормативной базы, в частности, закон о регуляторных песочницах, создание отраслевого стандарта больших данных.

Технологичное предсказание — предиктивная аналитика

Большие данные стали базой для бизнес-аналитики, которая позволила компаниям лучше изучать своих потребителей и совершенствовать бизнес-процессы. Первыми проводить исследования и внедрять предсказательный анализ на основе больших данных стали компании, которые имели к ним непосредственный доступ — IT компании в сфере  интернет  сервисов и экосистем, телеком, финансовая сфера и ритейл.

На первом этапе наиболее понятная и востребованная задача — персонифицикация предложений продуктов, и коммуникаций в сфере ритейла. Big Data массив накапливает информацию об истории транзакций или цепочке покупок, позволяет на основе этих данных сегментировать аудиторию и предлагать ей именно те товары, которые ее скорее всего заинтересуют. Самый простой пример — молодые мамы через определенное время после покупок пеленок получат рекомендации на соски-пустышки и детское питание.

При этом технология продвинутой аналитики может комплексно проанализировать и ряд вторичных факторов, которые могут повлиять на эффективность коммуникации — вплоть до особенностей восприятия такого рода предложений.

Например, если оценка психотипа говорит нам о том, что данный клиент может расценить подобное предложение как вторжение в приватную зону, такому клиенту предложение не делается, поскольку высок риск негатива и снижения лояльности. 

Аналогичные цепочки мотивации и заинтересованности в совершении покупок  можно с помощью методов продвинутой аналитики БигДата для любых других категорий товаров. 

В Финансовой сфере продвинутая аналитика и системы искусственного интеллекта используются аналогично. Информация о транзакциях, личные данные, сведения об имуществе позволяют предлагать наиболее подходящие банковские продукты, прогнозировать и регулировать отклик и эффективность рекламных компаний, платежеспособность клиентов, предупреждать попытки мошенничества, если отдельная транзакция резко отличается от обычного профиля финансового поведения клиента. Так, искусственный интеллект сообщит о сомнительной операции, если женатый мужчина с детьми и ипотекой вдруг выведет все накопления на счет в другом банке. При этом обученная на множестве ранее выявленных кейсов нейросеть не выделяет каждый такой отдельный кейс, а решает его интуитивно, аналогично с тем, как это делал бы квалифицированный эксперт по предупреждению мошенничества. Ежегодно технологии Big Data позволяют предупреждать различные виды мошенничества на миллиарды долларов. 

Если говорить об использовании технологии для прогнозирования платежеспособности клиентов, Bank of America предоставляет денежные средства владельцам кредитных и дебетовых карт на основе анализа их предыдущих покупок. Авиакомпания Delta позволяет клиентам отслеживать свой багаж с мобильных устройств, а Netflix использует свои данные и аналитику о привычках просмотров, чтобы создавать и покупать программы и фильмы, которые гарантированно охватят крупные сегменты аудитории.

Российские компании также активно внедряют в свою работу Big Data.

Объединение данных

Несмотря на колоссальные возможности Big Data, есть и сложности, с которыми сталкиваются все компании. У крупных компаний есть огромные массивы данных. Они локализованы, защищены от взлома и компрометации в соответствиями с требованиями законодательства. Ритейлеры, например, получают информацию с камер внутри магазина и с карт лояльности, которые фиксируют данные о покупках. При этом торговые сети имеют мало данных о поисковых запросах, и не имеют доступа к данным о геолокации или банковских операциях. Таким образом, крупные игроки формируют представление о потребителе, но оно неизбежно оказывается неполным. 

Создавать полноценные обезличенные поведенческие модели позволяет применение подхода Data Fusion.

При реализации данного подхода базы данных обезличиваются, «раскрашиваются» абстрактным сквозным идентификатором, не позволяющим определить принадлежность данных, после чего становится возможным их fusion — слияние в едином Озере данных. В совокупности это дает возможность составления высокоточных поведенческих моделей, которые смогут одновременно учитывать десятки факторов, влияющих на принимаемые решения.

Далее такие агрегированные и обогащенные данные могут быть предоставлены владельцам клиентских баз для повышения эффективности работы в любой сфере, а также для создания эффективных совместных кросс индустриальных продуктов и кампаний.

На сегодняшний день в развитии технологий объединения данных заинтересованы все крупнейшие игроки российского рынка — интернет-гиганты, банки, телеком операторы. Для решения этих задач создаются платформы и совместные предприятия по обработке и монетизации данных. По прогнозам экспертов и футурологов, уже к 2025 году технологии сквозной аналитики данных станут приоритетными не только для крупного бизнеса, но и для средних игроков, которые смогут обращаться к компаниям, операторам объединенных данных.

Платформы и операторы объединенных данных будут тем инструментом, который позволит делать предложения, продукты и сервисы для клиентов все более точными и качественными, сохраняя конфиденциальность данных клиентов.