Big data и лучшие инструменты аналитики в 2021 году

Какие профессии есть в сфере больших данных

Две основные профессии — это аналитики и дата-инженеры. 

Аналитик прежде всего работает с информацией. Его интересуют табличные данные, он занимается моделями. В его обязанности входит агрегация, очистка, дополнение и визуализация данных. То есть, аналитик в биг дата — это связующее звено между информацией в сыром виде и бизнесом. 

У аналитика есть два основных направления работы. Первое — он может преобразовывать полученную информацию, делать выводы и представлять ее в понятном виде.

Второе — аналитики разрабатывают приложения, которые будет работать и выдавать результат автоматически. Например, делать прогноз по рынку ценных бумаг каждый день. 

Дата инженер — это более низкоуровневая специальность. Это человек, который должен обеспечить хранение, обработку и доставку информации аналитику. Но там, где идет поставка и очистка — их обязанности могут пересекаться

Bigdata-инженеру достается вся черная работа. Если отказали системы, или из кластера пропал один из серверов — подключается он. Это очень ответственная и стрессовая работа. Система может отключиться и в выходные, и в нерабочее время, и инженер должен оперативно предпринять меры.

Это две основные профессии, но есть и другие. Они появляются, когда к задачам, связанным с искусственным интеллектом, добавляются алгоритмы параллельных вычислений. Например, NLP-инженер. Это программист, который занимается обработкой естественного языка, особенно в случаях, когда надо не просто найти слова, а уловить смысл текста. Такие инженеры пишут программы для чат-ботов и диалоговых систем, голосовых помощников и автоматизированных колл-центров. 

Есть ситуации, когда надо проклассифицировать миллиарды картинок, сделать модерацию, отсеять лишнее и найти похожее. Эти профессии больше пересекаются с компьютерным зрением. 

Где используются больше данные

• Облачные хранилища. Хранить всё на локальных компьютерах, дисках и серверах неудобно и затратно. Крупные облачные data-центры становятся надёжным способом хранения информации, доступной в любой момент.

• Блокчейн. Революционная технология, сотрясающая мир в последние годы, упрощает транзакции, делает их безопаснее, а, главное, хорошо справляется с обработкой операций между гигантским количеством контрагентов за счёт своего математического алгоритма.

• Самообслуживание. Роботизация и промышленная автоматизация снижают расходы на ведение бизнеса и уменьшают стоимость товаров или услуг.

• Искусственный интеллект и глубокое обучение. Подражание мышлению головного мозга помогает делать отзывчивые системы, эффективные в науке и бизнесе.

Эти сферы создаются и прогрессируют благодаря сбору и анализу данных. Пионерами в области таких разработок являются: поисковые системы, мобильные операторы, гиганты онлайн-коммерции, банки.

Решения на основе Big data: «Сбербанк», «Билайн» и другие компании

У «Билайна» есть огромное количество данных об абонентах, которые они используют не только для работы с ними, но и для создания аналитических продуктов, вроде внешнего консалтинга или IPTV-аналитики. «Билайн» сегментировали базу и защитили клиентов от денежных махинаций и вирусов, использовав для хранения HDFS и Apache Spark, а для обработки данных — Rapidminer и Python.

Или вспомним «Сбербанк» с их старым кейсом под названием АС САФИ. Это система, которая анализирует фотографии для идентификации клиентов банка и предотвращает мошенничество. Система была внедрена ещё в 2014 году, в основе системы — сравнение фотографий из базы, которые попадают туда с веб-камер на стойках благодаря компьютерному зрению. Основа системы — биометрическая платформа. Благодаря этому, случаи мошенничества уменьшились в 10 раз.

Примеры задач, эффективно решаемых при помощи MapReduce

Word Count

Начнём с классической задачи – Word Count. Задача формулируется следующим образом: имеется большой корпус документов. Задача – для каждого слова, хотя бы один раз встречающегося в корпусе, посчитать суммарное количество раз, которое оно встретилось в корпусе.

Решение:

Раз имеем большой корпус документов – пусть один документ будет одной входной записью для MapRreduce–задачи. В MapReduce мы можем только задавать пользовательские функции, что мы и сделаем (будем использовать python-like псевдокод):

Функция map превращает входной документ в набор пар (слово, 1), shuffle прозрачно для нас превращает это в пары (слово, ), reduce суммирует эти единички, возвращая финальный ответ для слова.

Обработка логов рекламной системы

Задача: имеется csv-лог рекламной системы вида:

Решение:

Функция map проверяет, нужна ли нам данная запись – и если нужна, оставляет только нужную информацию (город и размер платежа). Функция reduce вычисляет финальный ответ по городу, имея список всех платежей в этом городе.

Сколько времени занимает обучение

У нас обучение идет полтора года. Они разбиты на шесть четвертей. В одних идет упор на программирование, в других — на работу с базами данных, в третьих — на математику.

В отличии, например, от факультета ИИ, здесь поменьше математики. Нет такого сильного упора на математический анализ и линейную алгебру. Знания алгоритмов распределенных вычислений нужны больше, чем принципы матанализа. 

Но полтора года достаточно для реальной работы с обработкой больших данных только если у человека был опыт работы с обычными данными и вообще в ИТ. Остальным студентам после окончания факультета рекомендуется поработать с малыми и средними данными. Только после этого специалиста могут допустить к работе с большими. После обучения стоит поработать дата-саентистом — поприменять машинное обучение на разных объемах данных.

Когда человек устраивается в большую компанию — даже если у него был опыт — чаще всего его не допустят до больших объемов данных сразу, потому что цена ошибки там намного выше. Ошибки в алгоритмах могут обнаружиться не сразу, и это приведет к большим потерям.

Где применяются «большие данные»

Считается, что «большие данные» (Биг Дата) с наибольшей степенью востребованности могут быть применены в таких сферах как:

  • медицина (в том числе по причинам, обозначенным выше — Big Data уже доказала на практике свою применимость в данной сфере);
  • туризм;
  • финансовые услуги;
  • телекоммуникации;
  • розничная торговля (в том числе онлайн-продажи).

Во всех указанных сферах востребована предикативность. В ритейле и коммерческих услугах — в части поведения потребителей, контрагентов, возможно даже законодателей.

Важный аспект практического применения «больших данных» — развитие технологической базы на уровне инструментария для сбора соответствующих данных. В различных сегментах могут появляться новые, еще недавно неизвестные решения — как, например, онлайн-кассы в рознице.

Онлайн-касса формирует различные массивы фискальных данных. Основной из них — массив, отражаемый в кассовом чеке — который в электронном виде с каждой кассы попадает в различные базы данных (как минимум — на серверы ФНС, ОФД — откуда их может взять пользователь, то есть, магазин). А в чеке — куча полезной информации о проданных товарах, их стоимости, количестве, НДС. Все эти данные могут анализироваться и образовывать полезные предикативные алгоритмы.

Таким образом, эффективность обработки Big Data – это важно, но не менее значима и эффективность сбора исходных данных для такой обработки. По мере появления новых инструментов, которые задействуются в таких целях, могут открываться новые сферы применения «больших данных»

Видео — беседа с создателем российского БигДата-алгоритма Артуром Хачуяном:

Сферы применения Big Data

Сегодня Big Data помогают решать различные задачи во многих сферах, среди них: ритейл, медицина, финансы, промышленность, энергетика, туризм, экология, развлечения. Благодаря обработке и анализу большого массива данных, представители власти, бизнеса, науки, разработчики и другие заинтересованные лица улучшают качество товаров и услуг, развивают бизнес.

В Украине большие данные используют мобильные операторы. Они анализируют информацию о том, как перемещаются их абоненты. Это помогает решать различные задачи. Например, технологии Big Data позволяют определять, по каким дорогам чаще ездят украинцы. На основе полученных сведений выделяют автомагистрали, которые нуждаются в ремонте в первую очередь.

Широкое применение Big Data нашли в области ритейла. Они помогают компаниям находить территории с их целевой аудиторией и определять, где существует необходимость в новых магазинах. Такой подход используют Vodafone (Украина), сети «АТБ-Маркет», «Сильпо» и т. д.

В Киеве Big Data применяли для определения районов с заполненными детскими садами, отслеживания пассажиропотока и оптимизации маршрутов общественного транспорта.

Резюме

Big Data – это некая статистика (по замыслу Минкомсвязи — «неперсонифицированная», но, понятно, что она может быть разной по сути), на основании которой можно сделать некие прогнозы. По росту цен, по поведению клиентов — что угодно. Собираемость такой статистики стала возможна благодаря распространению технологий для ее сбора (гаджеты, онлайн-кассы и прочее), а также технологий для ее обработки: выросли вычислительные мощности, выросла пропускная способность интернета для обмена данными.

Видео — Игорь Ашманов о сборе «больших данных»и об аналитике  Big Data:

Hirotec: ускорение принятия решений на производстве

Компания Hirotec производит комплектующие для автомобилей BMW, Ford и General Motors. Используя потенциал big data и IoT, она устранила «проблему вчерашнего дня», когда на каждой утренней летучке обсуждаются вопросы, связанные с днём предыдущим. Облачная платформа ThingWorx (интеллектуальная разработка компании PTC) собирает критичные для бизнеса данные и помогает решать производственные проблемы максимально оперативно, сразу же, не дожидаясь следующего совещания. Руководители, инженеры и другие специалисты Hirotec получают доступ к данным и отслеживают изменения в режиме реального времени.

Какое будущее ждет Big Data?

Итак, анализ Big Data дает очень важную информацию, которую можно использовать в прикладных целях. Проблема в том, что данных становится все больше и больше, и анализировать их все сложнее. Так, по данным исследований, в ближайшие 5 лет общемировой объем данных увеличится в 10 раз и составит 163 зеттабайт (1 зеттабайт – миллиард терабайт). И на обработку всей этой информации компаниям придется основательно потратиться.

Big Data – безусловно, перспективное направление, считает Александр Богуцкий. Он напоминает – это очень демократичная сфера, где нет жесткой иерархии, относительно короткий путь от начинающего до эксперта. И в ближайшей перспективе данные будут играть куда большую роль, отмечает эксперт:

Другой вопрос – как именно «большие данные» будут использоваться в коммерции. Как считает Дмитрий Раевский из компании «Иннодата», будущее за коробочными решениями, которые смогут не только хранить, обрабатывать и анализировать данные, но и делать это самостоятельно, без привлечения дорогостоящих экспертов со стороны. Что касается отраслей, то применение таким решениям можно будет найти буквально где угодно.

В целом же, технологии Big Data будут развиваться по направлениям доступности, конверсии оборудования, стандартизации работы с источниками данных и делегации, считает Алексей Чащегоров:

Резюмируя: тот факт, что информация становится ценнейшим ресурсом, уже нельзя оспорить. Часто информация ценится дороже, чем сами деньги – компании предпочитают потратиться на внедрение современных систем обработки данных, потому что в перспективе это принесет выгоду. Поэтому у технологий Big Data больше будущее – вплоть до момента, когда «умные» устройства буквально окружат каждого человека.

Принципы работы с большими данными

Исходя из определения Big Data, можно сформулировать основные принципы работы с такими данными:

1. Горизонтальная масштабируемость. Поскольку данных может быть сколь угодно много – любая система, которая подразумевает обработку больших данных, должна быть расширяемой. В 2 раза вырос объём данных – в 2 раза увеличили количество железа в кластере и всё продолжило работать.

3. Локальность данных. В больших распределённых системах данные распределены по большому количеству машин. Если данные физически находятся на одном сервере, а обрабатываются на другом – расходы на передачу данных могут превысить расходы на саму обработку. Поэтому одним из важнейших принципов проектирования BigData-решений является принцип локальности данных – по возможности обрабатываем данные на той же машине, на которой их храним.

Все современные средства работы с большими данными так или иначе следуют этим трём принципам. Для того, чтобы им следовать – необходимо придумывать какие-то методы, способы и парадигмы разработки средств разработки данных. Один из самых классических методов я разберу в сегодняшней статье.

Чем полезны Big Data быть полезна конечному пользователю

В первую очередь, речь идет о персональных, когда пользователь — субъект и инициатор использования Big Data. Часто на этот вопрос отвечают банальными фразами типа «каждый раз, когда вы пользуетесь поисковыми системами Google или Яндекс, вы работаете с большими данными».

Однако суровая правда заключается в том, что пока разговор о Big Data приложениях для массового пользователям (B2C big data, если хотите) больше похож на рекламные плакаты эпохи «атомного романтизма» 50-х, где домохозяйкам обещают атомные пылесосы, а детям — атомные игрушки. Трудно представить ситуацию, в которой массовый пользователь будет являться не просто источником информации или потребителем готовых приложений, а полноценным участником процесса.

Супервайзер

Если у заказчика нет возможности компетентно и регулярно следить за ходом проекта больших данных, то имеет смысл ввести около-проектную позицию супервайзера.

Для объективной оценки работы команды проекта в целом и по отдельным задачам нужен относительно независимый контроль. А для того, чтобы избежать неожиданного провала проекта или временных задержек в реализации конкретных работ по разным управляемым причинам, организуется постоянный, но ненавязчивый контроль.

Желательно, чтобы супервайзер взаимодействовал с заказчиком, но не подчинялся ему. Супервайзером может быть внешний консультант, понимающий суть и задачи проекта. Скорее всего, внешний консультант примет участие в проекте больших данных с самого его начала.

Как стать Data Engineer и куда расти

Профессия дата-инженера довольно требовательна к бэкграунду. Костяк профессии составляют разработчики на Python и Scala, которые решили уйти в Big Data. В русскоговорящих странах, к примеру, процент использования этих языков в работе с большими данными примерно 50/50. Если знаете Java — тоже хорошо. 

Хорошее знание SQL тоже важно. Поэтому в Data Engineer часто попадают специалисты, которые уже ранее работали с данными: Data Analyst, Business Analyst, Data Scientist

Дата-сайентисту с опытом от 1–2 лет будет проще всего войти в специальность.

Фреймворками можно овладевать в процессе работы, но хотя бы несколько важно знать на хорошем уровне уже в самом начале. 

Дальнейшее развитие для специалистов Big Data Engineers тоже довольно разнообразное. Можно уйти в смежные Data Science или Data Analytics, в архитектуру данных, Devops-специальности. Можно также уйти в чистую разработку на Python или Scala, но так делает довольно малый процент спецов.

Перспективы у профессии просто колоссальные. Согласно данным Dice Tech Job Report 2020, Data Engineering показывает невероятные темпы роста — в 2019 году рынок профессии увеличился на 50 %. Для сравнения: стандартным ростом считается 3–5 %.

В 2020 году темпы замедлились, но всё равно они многократно опережают другие отрасли. Спрос на специальность вырос ещё на 24,8 %. И подобные темпы сохранятся еще на протяжении минимум пяти лет. 

Так что сейчас как раз просто шикарный момент, чтобы войти в профессию Data Engineering с нашим курсом Data Engineering и стать востребованным специалистом в любом серьёзном Data Science проекте. Пока рынок растёт настолько быстро, то возможность найти хорошую работу, есть даже у новичков.

Узнайте, как прокачаться и в других областях работы с данными или освоить их с нуля:

Как обрабатываются большие данные?

Современные вычислительные системы обеспечивают скорость, мощность и гибкость, необходимые для быстрого доступа к огромным объемам и типам больших данных. Некоторые данные могут храниться локально в традиционном хранилище данных, но существуют также гибкие и недорогие варианты хранения и обработки с помощью облачных решений и озер данных.

Чтобы из большого потока получить нужную информацию, используются различные методы анализа и обработки информации. Среди основных:

  • Машинное обучение.
  • Data mining
  • A/B-тестирование.
  • Имитационное моделирование.
  • Визуализация данных.

Советы

Соблюдайте логику хранения данных

Нельзя взять способ, которым вы хранили данные в Hadoop, и перенести его, например, в Vertica. Каждая система адаптирована под определенное хранение данных. Это могут быть широкие таблицы, звезда-снежинка, Data Vault, Anchor, третья нормальная форма или гибридная модель. Поэтому адаптируйте архитектуру под продукты и задачи и смотрите, что лучше подходит.  

Поделюсь моими историями успеха. Для Oracle и PostgreSQL лучше всего подходит третья нормальная форма, для ClickHouse — широкие таблицы. Vertica и Exasol очень хорошо работают с Data Vault. Ходят слухи, что Vertica круто работает с Anchor. Но мы столкнулись с тем, что с Anchor у каждой сущности появляется еще один интовый ключ. На ClickStream было много значений, и Anchor сильно увеличил объем хранимых данных. Пришлось вместо Anchor воспользоваться Data Vault, который позволяет сократить потребление данных. В Hadoop и Teradata хорошо работали вещи, близкие к третьей нормальной форме. 

Выберите Spare Parts: шину данных, UI и ETL Manager

История про UI. Коллеги построили хранилище данных и выбрали UI в виде табло. Все были довольны, пока в компанию не пришел новый CEO. Он сказал: «Ваше табло мне не нравится, я привык к Power BI». Поскольку ребята хорошо построили систему, то переключение с табло на Power BI произошло достаточно быстро. Хорошее хранилище должно позволять подключить любой интерфейс, который является более или менее стандартным. Если аналитик считает, что ему удобно пользоваться табло, значит, нужно подключить табло. Если ему нравится Power BI, значит, нужно подключить его. Для этого есть стандартные протоколы, например, JDBC, есть система, которая поддерживает большинство стандартных UI

Обращайте на это внимание, но это не краеугольный камень. Скорее смотрите, чтобы можно было переключиться. 

ETL-менеджер может развиваться динамически. Большинство из нас начинало свой ETL как набор задач в cron. Потом это становится трудно мониторить, и вы переходите на Airflow, Luigi, оркестратор Teradata, на что-то другое. Шина данных позволяет стандартизированно загружать данные в хранилище. Вещь важная, поскольку если вы не заложите ее в начале проектирования системы, то однажды поймете, что новых данных все больше и вам нужен какой-то стандарт для единого протокола загрузки в хранилище. Тогда окажется, что в ядре продукта есть логи, которые никто не хочет переделывать. Вам постоянно придется поддерживать это легаси, которое будет тянуться и тянуться, что весьма неприятно. Лучше ее проектировать сразу, хотя шину данных всегда можно поменять. А поменять хранилище тяжело и дорого. 

Не бойтесь совмещать технологии

Вы можете использовать для хранения неструктурированных данных тот же Hadoop или S3 и загружать свои данные в другую базу данных. Если у вас есть специфические интерфейсы, например, для OLAP, то можно использовать дополнительные системы. Есть система Apache Kylin, которая работает с HBase в Hadoop и позволяет вам строить OLAP-кубики для стандартных OLAP-интерфейсов. Выбирайте и комбинируйте. 

Есть популярный паттерн, когда на стандартную систему вроде Exasol и Vertica накладывается классическая SMP-система OLTP, в которую складываются подсчитанные данные, а далее из этой системы выдаются ответы. Например, если у вас есть личный кабинет клиента, то под него больше подойдет OLTP-система, в которой он будет смотреть отчеты. Сложные системы тяжелы в поддержке, но это компенсируется их плюсами. Нет системы, идеально решающей все задачи. Если у вас есть несколько популярных задач, будьте готовы, что под них нужно адаптировать разные системы.   

Ассортимент

У каждой крупной розничной сети всегда ведётся такая статистика:

  • что покупают в магазинах чаще всего;
  • как продажи разных товаров зависят от площади магазина;
  • как покупатели ходят внутри магазина;
  • какие продукты нужно ставить рядом с другими продуктами, чтобы они лучше продавались;
  • как зависит ассортимент от проходимости за день.

Всё это собирается по каждому магазину, заносится в единую большую базу. На выходе дата-сайентисты получают картину необходимого ассортимента для нужной площади. Анализ больших данных выдаст нам именно те товары, которые будут продаваться в нашем магазине лучше всего.

История вопроса и определение термина

При этом уже сейчас термин не использует только ленивый. Особенно часто не по делу термин используют маркетологи. Так что же такое Big Data на самом деле? Раз уж я решил системно изложить и осветить вопрос – необходимо определиться с понятием.

В своей практике я встречался с разными определениями:

· Big Data – это когда данных больше, чем 100Гб (500Гб, 1ТБ, кому что нравится)

· Big Data – это такие данные, которые невозможно обрабатывать в Excel

· Big Data – это такие данные, которые невозможно обработать на одном компьютере

И даже такие:

· Вig Data – это вообще любые данные.

· Big Data не существует, ее придумали маркетологи.

Таким образом под Big Data я буду понимать не какой-то конкретный объём данных и даже не сами данные, а методы их обработки, которые позволяют распредёлено обрабатывать информацию. Эти методы можно применить как к огромным массивам данных (таким как содержание всех страниц в интернете), так и к маленьким (таким как содержимое этой статьи).

Приведу несколько примеров того, что может быть источником данных, для которых необходимы методы работы с большими данными:

· Логи поведения пользователей в интернете

· GPS-сигналы от автомобилей для транспортной компании

· Данные, снимаемые с датчиков в большом адронном коллайдере

· Оцифрованные книги в Российской Государственной Библиотеке

· Информация о транзакциях всех клиентов банка

· Информация о всех покупках в крупной ритейл сети и т.д.

Количество источников данных стремительно растёт, а значит технологии их обработки становятся всё более востребованными.

Спрос больше предложения?

В России сообщество высококлассных специалистов очень узкое, и порог вхождения в отрасль довольно высокий.

Российская система образования зачастую не успевает адаптироваться под меняющиеся требования рынка. Программы обучения в вузах зачастую не прививают студентам критическое мышление в рамках научной деятельности. В результате выпускники без опыта работы, претендующие на работу в области больших данных, не всегда могут справиться с чем-то серьезнее, чем обучение готовых моделей из интернета или научных статей.

Игроки рынка совместными усилиями стремятся решить эти проблемы. Крупнейшие ИТ-компании запускают собственные программы обучения в самых актуальных сферах, нацеленные на подготовку специалистов среднего и высшего звеньев. Они позволяют получить свежие знания и опыт из первых уст от специалистов отрасли. При этом помощь государства могла бы ускорить процесс и, например, увеличить поддержку научных школ.

Большие данные: с чего начать

Зная, как в общем делится работа между специалистами больших данных, ответить на главный вопрос новичка в мире Big Data «с чего начать», становится гораздо проще. Прежде, чем погружаться в изучение множества мануалов по Apache Hadoop и алгоритмам Machine Learning, необходимо понять, что вас больше привлекает:

  • прикладное программирование;
  • администрирование;
  • проектирование архитектуры информационных потоков и сопровождение;
  • анализ данных;
  • создание математических моделей и алгоритмов обработки информации.

Кроме того, отметим, что, помимо линейных специалистов (программистов, администраторов, инженеров, архитекторов), знания в области больших данных также необходимы руководителям, чтобы видеть возможности цифровизации своего бизнеса и потенциальную выгоду от его цифровой трансформации. При этом менеджеру совсем не обязательно знать во всех деталях, как, например, работает Apache Kafka. Однако, чтобы не быть «чайником», руководителю крайне полезно ориентироваться в отраслевых сценариях применения средств Big Data (use-cases), понимать способы монетизации больших данных и специфику корпоративной цифровизации, чтобы эффективно расходовать временные, трудовые и материальные ресурсы, а также не ждать от технологий больше, чем они могут дать. Обо всем этом и не только мы рассказываем на обучающем курсе «Аналитика Big Data для менеджеров».

В качестве дополнительной мотивации изучения Big Data, отметим, что профессионалы в этой области больше всех зарабатывают среди ИТ-специалистов. Например, в 2019 году, согласно ежегодному исследованию Stack OverFlow, годовая зарплата аналитиков, инженеров и исследователей данных в США равнялась 60-70 тысяч долларов, т.е. около 350 тысяч рублей в месяц. При этом, поскольку цифровизация стремительно проникает во все сферы деятельности, от промышленности до образования, спрос на специалистов по данным все время растет по всему миру, в т.ч. и в России. Таким образом, большие данные – это очень перспективная и финансово выгодная область ИТ.


Зарплаты ИТ-специалистов в 2019 году по данным Stack OverFlow

Что необходимо знать и уметь аналитику, исследователю, инженеру и администратору больших данных, мы рассмотрим в следующих статьях. Проверить свое знание основ Big Data и Data Science вы можете, пройдя открытый бесплатный интерактивный тест прямо у нас на сайте ответив на 10 простых вопросов по основам больших данных. А освоить практику работы с прикладными инструментами Big Data, Machine Learning и Internet of Things, вам помогут наши курсы обучения и повышения квалификации ИТ-специалистов в лицензированном учебном центре для руководителей, аналитиков, архитекторов, инженеров и исследователей Big Data в Москве.

Смотреть расписание
Записаться на курс

Big data в банках

Помимо системы, описанной выше, в стратегии «Сбербанка» на 2014-2018 гг

говорится о важности анализа супермассивов данных для качественного обслуживания клиентов, управления рисками и оптимизации затрат. Сейчас банк использует Big data для управления рисками, борьбы с мошенничеством, сегментации и оценки кредитоспособности клиентов, управления персоналом, прогнозирования очередей в отделениях, расчёта бонусов для сотрудников и других задач

«ВТБ24» пользуется большими данными для сегментации и управления оттоком клиентов, формирования финансовой отчётности, анализа отзывов в соцсетях и на форумах. Для этого он применяет решения Teradata, SAS Visual Analytics и SAS Marketing Optimizer.

«Альфа-Банк» за большие данные взялся в 2013 году. Банк использует технологии для анализа соцсетей и поведения пользователей сайта, оценки кредитоспособности, прогнозирования оттока клиентов, персонализации контента и вторичных продаж. Для этого он работает с платформами хранения и обработки Oracle Exadata, Oracle Big data Appliance и фреймворком Hadoop.

«Тинькофф-банк» с помощью EMC Greenplum, SAS Visual Analytics и Hadoop управляет рисками, анализирует потребности потенциальных и существующих клиентов. Большие данные задействованы также в скоринге, маркетинге и продажах.

Как это на практике

Попробую показать это на примере наших задач: мы разрабатываем продукты, основанные на анализе больших данных, но продукт не может быть реализован без всех элементов технологической цепочки — от сбора требований до реализации пользовательского интерфейса. 

Так, недавно мы запустили портал поставщика — инструмент, который поможет поставщикам использовать анализ данных для улучшения показателей бизнеса. В целом описание технологического процесса разработки портала можно описать следующим образом.

  • Команда ETL-программистов собирает данные по диагностике категории, об источниках продаж, миграции покупателей, которые необходимы для анализа, и загружает их в систему.
  • Специалисты data quality проверяют его на полноту и консистентность. 
  • Затем на сцену выходят дата-аналитики и дата-сайентисты: проанализировав информацию, они разрабатывают математическую модель, которая позволяет анализировать изменение продаж и других ключевых показателей, выявлять источники изменения продаж и переключений, определять ротацию покупателей бренда и изменение их потребления. 
  • Теперь нужно реализовать эту модель в виде удобного приложения, которым смогут пользоваться менеджеры компании. Здесь наступает очередь отдела разработки: программисты вместе с архитектором проектируют структуру будущего приложения, backend-отдел создает его логику, а frontend — интерфейс, и после тестирования приложение передается в работу. 
  • Максимально быструю реализацию всей этой задачи обеспечивают инженеры DevOps, которые автоматизируют процесс сборки и установки функционала. 

Вывод

Если у вас нет DWH, то простой MVP можно накликать в облаке. Вы выбираете продукт, который поддерживается managed-сервисом, тот же Hadoop, и у вас уже есть какое-то хранилище. Попробуйте, и вы поймете, что это лучше, чем без хранилища. 

Если вас не  устраивает ваше DWH, попробуйте посмотреть на технологии вокруг. Для нас это был стресс. Я помню, каким для меня было вызовом, когда мне сказали: «Твой бесплатный Hadoop работает плохо, давайте посмотрим, какие есть платные хорошие решения». Я в ответ: «Что? Мой Hadoop? Да я сейчас напишу на Spark, всё будет работать очень быстро». Но я благодарен своим руководителям за то, что они предложили погонять PoC, и я понял, что коробочные решения могут делать гораздо быстрее и надежнее, чем Hadoop, который нужно настраивать несколько месяцев под одну задачу. Смотрите вокруг, ищите что-то хорошее, читайте Хабр и Medium. Иногда даже специфические продукты взлетают.