Большие данные в интернет маркетинге. Big data для маркетинга. Уставшие от хайпа с Big Data

Постоянное ускорение роста объема данных является неотъемлемым элементом современных реалий. Социальные сети, мобильные устройства, данные с измерительных устройств, бизнес-информация – это лишь несколько видов источников, способных генерировать гигантские массивы данных.

В настоящее время термин Big Data (Большие данные) стал довольно распространенным. Далеко не все еще осознают то, насколько быстро и глубоко технологии обработки больших массивов данных меняют самые различные аспекты жизни общества. Перемены происходят в различных сферах, порождая новые проблемы и вызовы, в том числе и в сфере информационной безопасности, где на первом плане должны находиться такие важнейшие ее аспекты, как конфиденциальность, целостность, доступность и т. д.

К сожалению, многие современные компании прибегают к технологии Big Data, не создавая для этого надлежащей инфраструктуры, которая смогла бы обеспечить надежное хранение огромных массивов данных, которые они собирают и хранят. С другой стороны, в настоящее время стремительно развивается технология блокчейн, которая призвана решить эту и многие другие проблемы.

Что такое Big Data?

По сути, определение термина лежит на поверхности: «большие данные» означают управление очень большими объемами данных, а также их анализ. Если смотреть шире, то это информация, которая не поддается обработке классическими способами по причине ее больших объемов.

Сам термин Big Data (большие данные) появился относительно недавно. Согласно данным сервиса Google Trends , активный рост популярности термина приходится на конец 2011 года:

В 2010 году уже стали появляться первые продукты и решения, непосредственно связанные с обработкой больших данных. К 2011 году большинство крупнейших IT-компаний, включая IBM, Oracle, Microsoft и Hewlett-Packard, активно используют термин Big Data в своих деловых стратегиях. Постепенно аналитики рынка информационных технологий начинают активные исследования данной концепции.

В настоящее время этот термин приобрел значительную популярность и активно используется в самых различных сферах. Однако нельзя с уверенностью сказать, что Big Data – это какое-то принципиально новое явление – напротив, большие источники данных существуют уже много лет. В маркетинге ими можно назвать базы данных по покупкам клиентов, кредитным историям, образу жизни и т. д. На протяжении многих лет аналитики использовали эти данные, чтобы помогать компаниям прогнозировать будущие потребности клиентов, оценивать риски, формировать потребительские предпочтения и т. д.

В настоящее время ситуация изменилась в двух аспектах:

— появились более сложные инструменты и методы для анализа и сопоставления различных наборов данных;
— инструменты анализа дополнились множеством новых источников данных, что обусловлено повсеместным переходом на цифровые технологии, а также новыми методами сбора и измерения данных.

Исследователи прогнозируют, что технологии Big Data активнее всего будут использоваться в производстве, здравоохранении, торговле, госуправлении и в других самых различных сферах и отраслях.

Big Data – это не какой-либо определенный массив данных, а совокупность методов их обработки. Определяющей характеристикой для больших данных является не только их объем, но также и другие категории, характеризующие трудоемкие процессы обработки и анализа данных.

В качестве исходных данных для обработки могут выступать, например:

— логи поведения интернет-пользователей;
— Интернет вещей;
— социальные медиа;
— метеорологические данные;
— оцифрованные книги крупнейших библиотек;
— GPS-сигналы из транспортных средств;
— информация о транзакциях клиентов банков;
— данные о местонахождении абонентов мобильных сетей;
— информация о покупках в крупных ритейл-сетях и т.д.

Со временем объемы данных и количество их источников непрерывно растет, а на этом фоне появляются новые и совершенствуются уже имеющиеся методы обработки информации.

Основные принципы Big Data:

— Горизонтальная масштабируемость – массивы данных могут быть огромными и это значит, что система обработки больших данных должна динамично расширяться при увеличении их объемов.
— Отказоустойчивость – даже при сбое некоторых элементов оборудования, вся система должна оставаться работоспособной.
— Локальность данных. В больших распределенных системах данные обычно распределяются по значительному числу машин. Однако по мере возможности и в целях экономии ресурсов данные часто обрабатываются на том же сервере, что и хранятся.

Для стабильной работы всех трех принципов и, соответственно, высокой эффективности хранения и обработки больших данных необходимы новые прорывные технологии, такие как, например, блокчейн.

Для чего нужны большие данные?

Сфера применения Big Data постоянно расширяется:

— Большие данные можно использовать в медицине. Так, устанавливать диагноз пациенту можно не только опираясь на данные анализа истории болезни, но также принимая во внимание опыт других врачей, сведения об экологической ситуации района проживания больного и многие другие факторы.
— Технологии Big Data могут использоваться для организации движения беспилотного транспорта.
— Обрабатывая большие массивы данных можно распознавать лица на фото- и видеоматериалах.
— Технологии Big Data могут быть использованы ритейлерами – торговые компании могут активно использовать массивы данных из социальных сетей для эффективной настройки своих рекламных кампаний, которые могут быть максимально ориентированы под тот или иной потребительский сегмент.
Данная технология активно используется при организации предвыборных кампаний, в том числе для анализа политических предпочтений в обществе.
— Использование технологий Big Data актуально для решений класса гарантирования доходов (RA) , которые включают в себя инструменты обнаружения несоответствий и углубленного анализа данных, позволяющие своевременно выявить вероятные потери, либо искажения информации, способные привести к снижению финансовых результатов.
— Телекоммуникационные провайдеры могут агрегировать большие данные, в том числе о геолокации; в свою очередь эта информация может представлять коммерческий интерес для рекламных агентств, которые могут использовать ее для показа таргетированной и локальной рекламы, а также для ритейлеров и банков.
— Большие данные могут сыграть важную роль при решении открытия торговой точки в определенной локации на основе данных о наличии мощного целевого потока людей.

Таким образом наиболее очевидное практическое применение технологии Big Data лежит в сфере маркетинга. Благодаря развитию интернета и распространению всевозможных коммуникационных устройств поведенческие данные (такие как число звонков, покупательские привычки и покупки) становятся доступными в режиме реального времени.

Технологии больших данных могут также эффективно использоваться в финансах, для социологических исследований и во многих других сферах. Эксперты утверждают, что все эти возможности использования больших данных являются лишь видимой частью айсберга, поскольку в гораздо больших объемах эти технологии используются в разведке и контрразведке, в военном деле, а также во всем том, что принято называть информационными войнами.

В общих чертах последовательность работы с Big Data состоит из сбора данных, структурирования полученной информации с помощью отчетов и дашбордов, а также последующего формулирования рекомендаций к действию.

Рассмотрим вкратце возможности использования технологий Big Data в маркетинге. Как известно, для маркетолога информация – главный инструмент для прогнозирования и составления стратегии. Анализ больших данных давно и успешно применяется для определения целевой аудитории, интересов, спроса и активности потребителей. Анализ больших данных, в частности, позволяет выводить рекламу (на основе модели RTB-аукциона - Real Time Bidding) только тем потребителям, которые заинтересованы в товаре или услуге.

Применение Big Data в маркетинге позволяет бизнесменам:

— лучше узнавать своих потребителей, привлекать аналогичную аудиторию в Интернете;
— оценивать степень удовлетворенности клиентов;
— понимать, соответствует ли предлагаемый сервис ожиданиям и потребностям;
— находить и внедрять новые способы, увеличивающие доверие клиентов;
— создавать проекты, пользующиеся спросом и т. д.

Например, сервис Google.trends может указать маркетологу прогноз сезонной активности спроса на конкретный продукт, колебания и географию кликов. Если сопоставить эти сведения со статистическими данными, собираемыми соответствующим плагином на собственном сайте, то можно составить план по распределению рекламного бюджета с указанием месяца, региона и других параметров.

По мнению многих исследователей, именно в сегментации и использовании Big Data заключается успех предвыборной кампании Трампа. Команда будущего президента США смогла правильно разделить аудиторию, понять ее желания и показывать именно тот месседж, который избиратели хотят видеть и слышать. Так, по мнению Ирины Белышевой из компании Data-Centric Alliance, победа Трампа во многом стала возможной благодаря нестандартному подходу к интернет-маркетингу, в основу которого легли Big Data, психолого-поведенческий анализ и персонализированная реклама.

Политтехнологи и маркетологи Трампа использовали специально разработанную математическую модель, которая позволила глубоко проанализировать данные всех избирателей США систематизировать их, сделав сверхточный таргетинг не только по географическим признаками, но также и по намерениям, интересам избирателей, их психотипу, поведенческим характеристикам и т. д. После этого маркетологи организовали персонализированную коммуникацию с каждой из групп граждан на основе их потребностей, настроений, политических взглядов, психологических особенностей и даже цвета кожи, используя практически для каждого отдельного избирателя свой месседж.

Что касается Хиллари Клинтон, то она в своей кампании использовала «проверенные временем» методы, основанные на социологических данных и стандартном маркетинге, разделив электорат лишь на формально гомогенные группы (мужчины, женщины, афроамериканцы, латиноамериканцы, бедные, богатые и т. д.).

В результате выиграл тот, кто по достоинству оценил потенциал новых технологий и методов анализа. Примечательно, что расходы на предвыборную кампанию Хиллари Клинтон были в два раза больше, чем у ее оппонента:

Данные: Pew Research

Основные проблемы использования Big Data

Помимо высокой стоимости, одним из главных факторов, тормозящих внедрение Big Data в различные сферы, является проблема выбора обрабатываемых данных: то есть определения того, какие данные необходимо извлекать, хранить и анализировать, а какие – не принимать во внимание.

Еще одна проблема Big Data носит этический характер. Другими словами возникает закономерный вопрос: можно ли подобный сбор данных (особенно без ведома пользователя) считать нарушением границ частной жизни?

Не секрет, что информация, сохраняемая в поисковых системах Google и Яндекс, позволяет IT-гигантам постоянно дорабатывать свои сервисы, делать их удобными для пользователей и создавать новые интерактивные приложения. Для этого поисковики собирают пользовательские данные об активности пользователей в интернете, IP-адреса, данные о геолокации, интересах и онлайн-покупках, личные данные, почтовые сообщения и т. д. Все это позволяет демонстрировать контекстную рекламу в соответствии с поведением пользователя в интернете. При этом обычно согласия пользователей на это не спрашивается, а возможности выбора, какие сведения о себе предоставлять, не дается. То есть по умолчанию в Big Data собирается все, что затем будет храниться на серверах данных сайтов.

Из этого вытекает следующая важная проблема, касающаяся обеспечения безопасности хранения и использования данных. Например, безопасна ли та или иная аналитическая платформа, которой потребители в автоматическом режиме передают свои данные? Кроме того, многие представители бизнеса отмечают дефицит высококвалифицированных аналитиков и маркетологов, способных эффективно оперировать большими объемами данных и решать с их помощью конкретные бизнес-задачи.

Несмотря на все сложности с внедрением Big Data, бизнес намерен увеличивать вложения в это направление. По данным исследования Gartner, лидерами инвестирующих в Big Data отраслей являются медиа, ритейл, телеком, банковский сектор и сервисные компании.

Перспективы взаимодействия технологий блокчейн и Big Data

Интеграция с Big Data несет в себе синергетический эффект и открывает бизнесу широкий спектр новых возможностей, в том числе позволяя:

— получать доступ к детализированной информации о потребительских предпочтениях, на основе которых можно выстраивать подробные аналитические профили для конкретных поставщиков, товаров и компонентов продукта;
— интегрировать подробные данные о транзакциях и статистике потребления определенных групп товаров различными категориями пользователей;
— получать подробные аналитические данные о цепях поставок и потребления, контролировать потери продукции при транспортировке (например, потери веса вследствие усыхания и испарения некоторых видов товаров);
— противодействовать фальсификациям продукции, повысить эффективность борьбы с отмыванием денег и мошенничеством и т. д.

Доступ к подробным данным об использовании и потреблении товаров в значительной мере раскроет потенциал технологии Big Data для оптимизации ключевых бизнес-процессов, снизит регуляторные риски, раскроет новые возможности монетизации и создания продукции, которая будет максимально соответствовать актуальным потребительским предпочтениям.

Как известно, к технологии блокчейн уже проявляют значительный интерес представители крупнейших финансовых институтов, включая , и т. д. По мнению Оливера Буссманна, IT-менеджера швейцарского финансового холдинга UBS, технология блокчейн способна «сократить время обработки транзакций от нескольких дней до нескольких минут».

Потенциал анализа из блокчейна при помощи технологии Big Data огромен. Технология распределенного реестра обеспечивает целостность информации, а также надежное и прозрачное хранение всей истории транзакций. Big Data, в свою очередь, предоставляет новые инструменты для эффективного анализа, прогнозирования, экономического моделирования и, соответственно, открывает новые возможности для принятия более взвешенных управленческих решений.

Тандем блокчейна и Big Data можно успешно использовать в здравоохранении. Как известно, несовершенные и неполные данные о здоровье пациента в разы увеличивают риск постановки неверного диагноза и неправильно назначенного лечения. Критически важные данные о здоровье клиентов медучреждений должны быть максимально защищенными, обладать свойствами неизменности, быть проверяемыми и не должны быть подвержены каким-либо манипуляциям.

Информация в блокчейне соответствует всем перечисленным требованиям и может служить в роли качественных и надежных исходных данных для глубокого анализа при помощи новых технологий Big Data. Помимо этого, при помощи блокчейна медицинские учреждения смогли бы обмениваться достоверными данными со страховыми компаниями, органами правосудия, работодателями, научными учреждениями и другими организациями, нуждающимися в медицинской информации.

Big Data и информационная безопасность

В широком понимании, информационная безопасность представляет собой защищенность информации и поддерживающей инфраструктуры от случайных или преднамеренных негативных воздействий естественного или искусственного характера.

В области информационной безопасности Big Data сталкивается со следующими вызовами:

— проблемы защиты данных и обеспечения их целостности;
— риск постороннего вмешательства и утечки конфиденциальной информации;
— ненадлежащее хранение конфиденциальной информации;
— риск потери информации, например, вследствие чьих-либо злонамеренных действий;
— риск нецелевого использования персональных данных третьими лицами и т. д.

Одна из главных проблем больших данных, которую призван решить блокчейн, лежит в сфере информационной безопасности. Обеспечивая соблюдение всех основных ее принципов, технология распределенного реестра может гарантировать целостность и достоверность данных, а благодаря отсутствию единой точки отказа, блокчейн делает стабильной работу информационных систем. Технология распределенного реестра может помочь решить проблему доверия к данным, а также предоставить возможность универсального обмена ими.

Информация – ценный актив, а это значит, что на первом плане должен стоять вопрос обеспечения основных аспектов информационной безопасности. Для того, чтобы выстоять в конкурентной борьбе, компании должны идти в ногу со временем, а это значит, что им нельзя игнорировать те потенциальные возможности и преимущества, которые заключают в себе технология блокчейн и инструменты Big Data.

Позавчера в новостной ленте 3 поста про Big Data. Вчера, коллега прислал заметку про тоже самое. Сегодня позвонили из "Билайна" и пригласили на бизнес-завтрак по Big Data. Не пошел! Я с готовностью и с открытым разумом "за" современные цифровые технологии. Я против профанации экспертности и несущих ее высокообразованных профанов.

Несколько слов адептам "больших данных", совершенно понятных маркетологам.

Что такое Big Data?

Пару слов тем, кто не совсем знаком с этим термином. Big data – это собственно большой проток плохо структурированных и не связанных друг с другом данных, полученных из несвязанных источников; их анализ и построение моделей прогнозирования события на их основе. Термин этот появился сравнительно недавно. Google Trends показывает начало активного роста употребления словосочетания начиная с 2011 года.

Как бы сказать проще? Big Data – это такие данные:

  • которые невозможно обрабатывать в Excel
  • взаимосвязь между которыми не видит человек
  • к тем, что еще вчера не успели обработать,– это еще и постоянно поступающие новые данные за новый период.

Откуда эти данные?

Ежесекундно гигантские мегатонны контента генерируют события в мире, новостные порталы, бренды, их торговые и информационные посредники. В каждом магазине на входе стоит датчик, который фиксирует появление в торговом зале нового посетителя. Платежные онлайн-системы фиксируют транзакции, банки – движение наличных и безналичных денег, магазины считают чеки и анализируют их суммы. Поисковые системы фиксируют количество и частоту интернет-запросов. Социальные сети видят количество упоминаний тех или иных марок, по сопутствующему окружению, понимают характер и причину упоминания, настроение и отношение.

Ну что, маркетологи, у вас еще не загорелись глаза, руки от предвкушения "знать все" не дрожат? Спокойно! Это не для вас! Чтобы получить, собрать воедино, осмыслить все эти беспорядочные данные, нужно использовать ультрасовременную аналитику с привлечением искусственного интеллекта и чудовищные по объему хранилища этих данных. Если с хранилищами все решаемо, то вот искусственный интеллект нужно еще обучить. Впрочем, о сложности этой задачи ниже, а пока сохраним естественное для маркетолога желание "знать все" о потребителях и пойдем разбираться.

С Big Data есть вполне конкретный подвох.

Возьмите детский совочек, нагребите в него побольше песочка, простите, данных и попробуйте проанализировать то, что собрали

Мусор на входе – ошибки на выходе

Любой знакомый с информатикой, IT-технологиями и аналитикой понимает, что качество входящих данных и их достоверность – первейшая вещь. Очень просто черпать и накапливать данные, но вот как быть уверенным в том, что собрали вы то, там и о том?
  • Вы хотите получать данные из интернета? Замечательно. Любой бот способен генерировать трафика и данных на порядки больше, чем это наплодит ваша целевая аудитория! По оценке американской организации Association of National Advertisers, в 2015 году бренды потратили на закупку фальшивого, несуществующего трафика $7,2 млрд, а в прошлом году показатель вырос до $10 млрд.
  • Компания CNBC подсчитала, что в 2016-м до 20% выделяемых на интернет-рекламу бюджетов были потрачены на трафик, который генерировали боты (англ. non-human traffic).
  • Датчики на входе в магазин? Да весь персонал, периодически выходящий курить, нагенерирует посещения вашего магазина столько, что сделает эти данные бессмысленными. Праздно болтающиеся по торговому центру и периодически заходящие в ваш магазин "не покупатели" окончательно добьют идею "подсчитать магазинный трафик". Вы говорите, что эти цифры "праздных" можно спрогнозировать моделью и отсечь? Замечатльно, но как увидеть и отсечь рост "праздных", вызванный ATL-рекламной этого ТЦ или якорного арендатора? А если одновременно с этим идет и ваша массовая реклама?
  • Логичное машинное программирование никак не учтет тот факт, что "лайки" люди ставят не всегда выражая этим одобрение. Делают они это: из жалости, спонтанно, по привычке, из-за одобрения самого автора, а не его конкретного мнения, лайкают и боты и т.п.
Самая большая проблема в "больших данных" - это собственно, данные. Что касается людей, не стоит все ими сгенерированное слишком уж определенно брать на веру. Потребители путаются, сотрудники лгут, подрядчики, замотивированные на результат –– подтасовывают.

Неполнота данных

Давайте рассмотрим такую, в общем-то тривиальную для маркетинга задачу, как мониторинг (пока еще не прогнозирование) поведения целевой группы. И еще более конкретный предмет наблюдения, как социальное взаимодействие членов этой целевой группы. Зачем это нужно? Одной из целей взаимодействия является уменьшения неопределенностей – получение знаний и снятие сомнения при выборе, в отношении вашего предмета маркетинга. Такое уменьшение неопределенности является следствием совместного участия людей в межиндивидуальных или групповых видах деятельности, например, в ходе общения в соцсетях.

Беда же в том, что сколько бы мы не собирали "большие данные", но это общение не ограничивается только соцсетями. Люди общаются в офлайне: коллеги на работе, случайное общение членов ЦА на отдыхе, совместная выпивка в пабе, случайный разговор в общественном транспорте. Такое взаимодействие будет не подконтрольно наблюдателям за Big Data. По настоящему полнота данных может быть обеспечена только:

  • При тотальном контроле за всеми членами целевой группы. Ибо даже в туалете общественного кинотеатра может произойти такое взаимодействие, не учтенное для последующего анализа!
  • В замкнутой системе. Скажем, подсчитать число пользователей, пользующихся многоразовыми проездными билетами в метро и понять, какая же часть этого множества пользуется еще и наземным общественным транспортном. Но как подсчитать сколько же из не воспользовавшихся использовали такси?
Вторая проблема неполноты данных в том, что процесс такого взаимодействия имеет два аспекта: объективный и субъективный. Объективная сторона – это связи, не зависящие от отдельных личностей или групп, но объективно и содержательно способные быть учтенными в Big Data (например, купля/продажа, передача ии прием единицы информации). Это может быть учтено, подсчитано, обработано и на этом можно построить модель.

Субъективная сторона взаимодействия – это сознательное, нередко эмоционально окрашенное отношение индивидов друг к другу, возникающее в процессе взаимодействия: взаимные ожидания определенного поведения или реакции, личная расположенность к партнеру по взаимодействию, приятность внешнего вида и голоса партнера и тому подобное. Все это влияет, как на само взаимодействие, так и на результат такого взаимодействия. Эти же аспекты очень трудно проследить и проанализировать. Суррогатом, позволяющим хоть как-то проследить субъективный аспект взаимодействия являются лайки, смайлики в соцсетях. По их наличию можно попытаться определить степень вовлеченности, настроение и отношение. Но, черт возьми, как это сделать, если взаимодействующие их не используют? И уж конечно же эмоджи люди не используют на улицах, в магазинах, в транспорте – люди не живут в соцсетх и за их пределами общаются иначе!

Анализировать взаимодействия членов целевой группы только по факту взаимодействия (продажа) или только там, где вы хотите наблюдать такое взаимодействие (магазин), не учитывать субъективное качество взаимодействия – это обрекать себя не непонимания того, продолжится ли такое взаимодействие завтра, будут ли еще покупки в этом магазине – понравилось ли покупать, удовлетворены ли предметом маркетинга или нет.

Обезьяна, граната, а в гранате – Big Data

Зачастую, анализируя что-то маркетинговое с рынка, мы наблюдаем два явления, происходящие совместно, однако никак не связанные между собой: падение числа чеков с нашим товаром и рост цен на товары потребительской корзины. Если такие явления происходят параллельно и довольно длительное время, что в голове маркетингового специалиста может возникнуть мало чем обоснованное предположение о том, что это как-то взаимосвязано. Есть такое понятие "эпифеномен" - это ошибка причинно-следственных связей.

Н. Талеб в «Антихрупкости» говорит:

Если птицам читать лекции об теории полета, то они станут летать - вы в это не верите, это же глупо, не так ли? А вот следующий пример: В богатых странах проводится больше научных исследований, поэтому можно предположить, что наука порождает богатство. Это уже более правдоподобно, да? И вполне коррелирует с житейской мудростью - «если ты такой умный, то почему такой бедный?» На самом деле в мире все было наоборот - сначала некоторые страны заполучили богатство, а уж потом стали развивать науки. В бедной стране наука невозможна.

Таргетированная реклама при помощи Big Data - это по прежнему стрельба в темноту, пишет Forbes. Пока нет доказательств, что все эти методики, построенные на анализе cookies, социальных медиа и прочего хитроумного «таргетинга» устойчиво работают. Да и вы сами сто раз с этим сталкивались - когда контекстная реклама бьет мимо, нисколько не отвечая вашим интересам или когда вы уже товару купили, а еще месяц после вам показывают контекстно именно этот товар. Кто-то же в этот момент "палит" на вас деньги!?

Big Data в руках генераторов теорий - это идеальный инструмент для открытия и продвижения эпифеномена, а накопление данных и наблюдение за ними, в отсутствие четких моделей прогнозирования, построенных на анализе реалий, а не гипотез, может породить большое число таких ложных "открытий". Почему не основанные ни на чем гипотезы в науке – благо, а в маркетинге – смерть? Если кто-то из ученых напишет диссертацию и ошибется – не страшно, забыто. Но если эти теории проникнут в маркетинг - из прибыльного получится "monkey business".

Вначале научитесь предсказывать погоду на завтра

Научиться собирать данные и отсеивать "мусор" – это проблема, но она не столь значительная, по сравнению с проблемой отсутствие моделей поведения человека, алгоритмов прогнозирования. Есть такая расхожая шутка: "Пошла за розовой кофточкой, но никак не смогла отказать себе в этой лиловой сумочке" – это про и психологию покупательского поведения, которые попытаться спрогнозировать, так же "просто", как погоду на выходные. Способность предсказывать тренды на основе Big Data сильно преувеличена. Дело даже не в отсутствие способностей у маркетинговых аналитиков.

Ошибки прогнозов – это не математические ошибки, а фундаментальная проблема!

Все дело в пресловутом "человеческом факторе". Вероятность того, что замеченное сейчас изменение в поведении или оценках людей повториться в будущем не так уж и высока. Человек самообучаются быстрее, чем строится прогнозная модель. В любой момент во взглядах человека, в социуме, в рыночном сегменте, в ответной реакции брендов на деятельность конкурентов может появиться новый фактор влияния, который сломает все ваши гипотезы.

Несмотря на сотни компьютеров и целую армию метеорологов, никто не умеет предсказывать погоду на три дня вперед, так почему же вы ждете, что будущее вашего рынка можно предсказать на три года вперед?…
Джек Траут, Эл Райс "22 непреложных закона маркетинга"
ISBN: 5-17-024999-3, 978-5
И в этом своем мнении, мэтр совершенно .

Хотите примеры?

Конечно же любое мнение можно опровергнуть. Если не сейчас, то лет через триста, когда и опыт появится и технологии пойдут дальше. Но сегодня есть примеры, подтверждающие сомнения о возможности прогнозирования на Big Data. Примеры эти довольно убедительны.

Как прогнозировали грипп?

Самым любимым у многих адептов предсказаний на "биг дата" был Google Flu Trends - графики убедительно показывали, что можно предсказывать эпидемии гриппа в интернете, быстрее и надежнее, чем врачи. Достаточно проанализировать запросы пользователей о названии лекарств, их описаний и адресов аптек. Этот пример кочевал из презентации в презентации, из статьи в статью. В результате попал и в серьезные книжки. Раз сработало, а дальше? Все оказалось не точнее, чем у отечественного Гидрометцентра. Первый сигнал об ошибке был в 2009 году, когда он совершенно пропустил мировую эпидемию «свиного» гриппа. В 2012 система вновь дала сбой - Google Flu Trends более чем в два раза переоценил пик очередной эпидемии. (Пишет журнал Nature.)

Прогноз победы

Во время выборов в Конгресс на праймерез в Виргини, по мнению аналитиков, на выборах должен был победить Э. Кантор из Республиканской партии. И действительно, он шел с отрывом в 34% от конкурентов. Однако, сокрушительно проиграл - минус 10% от победившего. Ошибка была в том, что модель ориентировалась на «типичных избирателей», учитывала их историю голосований, поведение и предпочтения. Но в этот раз явка оказалась сильно выше, чем обычно, в игру включились избиратели, которые не вписывались в модель. Но пример победы на выборах президента Трампа и однозначные прогнозы всех аналитиков не в его пользу – это куда более убедительный пример того, что прогнозы на Big Data – дело стрёмное!

Пишите длинные тексты

… учили еще несколько лет назад те, кто наблюдал за алгоритмом ранжирования поисковой системы Google. Две тысячи знаков, цифры и буллиты, ссылки на первоисточники – это то немногое, что сулило успех в ранжировании сайта. В ходе практической реализации этого совета, SEO-специалисты начали повально писать сложные и длинные тексты, даже на главную страницу сайта – если ты знаешь алгоритм, то всегда можешь повлиять на результаты. Если вы знаете алгоритм работы прогноза на основе Big Data вы легко можете обмануть систему.

Ворота МТС

Еще в 2015 году на Форуме "Future of Telecom" руководитель направления Big Data компании "МТС" Виталий Сагинов рассказывал о подходах компании в развитии направления по работе с "большими данными". В своем докладе он отмечал: "в ближайшее время доходы компании от продажи аналитики на данных будут сопоставимы с доходами от меседжинга и SMS". Замечательно, но в мае 2018 года все новостные ленты и ТВ облетела информация о том, что житель Москвы Алексей Надежин клиент этого сотового оператора связи обнаружил, что его ворота, установленные, на въезде в садоводческое товарищество "самостоятельно" подписались на платные SMS-сервисы отвечали на посылаемую им информацию.

В пресс-службе МТС тогда рассказали, что "специалисты провели необходимые работы, чтобы подобный случай не повторился". Означает ли это, что ворота сами что-то набирали в телефоне или подписки были оформлены без согласия абонента, в комментарии компании не уточняется. Вот только на симку, установленную в автоматике ворот приходило множество СМС с коротких номеров, а ворота, оказывается, "сами" им отвечали, отправляя СМС в ответ. Ну и где же результат многолетней работы с "большими данными" для недопущения подобного? Заявлять о умении собирать, анализировать и прогнозировать на Big Data – это еще не означает делать это с адекватным качеством!

А что Procter&Gamble?

На крупнейшей европейской выставки и конференции по вопросам цифрового маркетинга Dmexco’2017, прошедшей в Кельне, Procter&Gamble в своей презентации подробно остановился на том, что компания сильно сократила бюджеты, выделяемые на программатические закупки. Крупнейший транснациональный рекламодатель такого уровня впервые открыто, на публике спорил с тезисом рекламно-технологических компаний (англ. AdTech), до сих пор утверждавших, что охват пользователей гораздо важнее источника прямого рекламного трафика. В результате компания радикально сократила список интернет-площадок на которых готова размещать свою рекламу – нет адекватной прогнозной модели, незачем тратить деньги на формирование чего-либо в будущем.

Как Сбербанк от искусственного интеллекта пострадал

В феврале 2019 года во время своего выступления на «Уроке цифры» в частной школе в Москве глава Сбербанка Герман Греф, отвечая на вопрос о рисках внедрения технологий, сказал: «Искусственный интеллект, как правило, принимает решение в больших системах. Маленькая ошибка, закравшаяся в алгоритм, может приводить к очень большим последствиям». Отвечая на запрос РБК о сути потерь от внедрения искусственного интеллекта, в пресс-службе Сбербанка уточнили, что «речь идет не о прямых убытках, а скорее о недополученной прибыли». Тем не менее, глава банка высказался о потерях определенно, смысл его заявления в том, что Сбербанк в результате ошибок искусственного интеллекта уже потерял миллиарды рублей.

Big Data в маркетинге - пора расстаться с иллюзиями

Сколько бы поколений предсказателей не жило на Земле, сколько бы шаманов и жрецов не перепробовало все возможные инструменты предсказания, результат один, – деньги из кармана озабоченного будущем перекачивали в карман предсказателя. Сегодня вооружившись сверх мощными компьютерами, предсказатели пытаются делать тоже самое, что их достопочтенные основатели этой древнейшей профессии. Представление о человеке, как о предсказуемом и прогнозируемом автомате – ошибочно. Вот сегодня Big Data – очередной фетиш и очередной "хрустальный шар" в длинном многовековом перечне атрибутов предсказателей будущего. Все "убедительные примеры" способности к предсказанию на Big Data разваливаются или будут опровергнуты жестокой реальностью в ближайшие же годы.

Имеющие доступ к статистике: банки, телефонные компании, агрегаторы, вчера еще не знали зачем эти данные им самим нужны, а сегодня непременно хотят заработать на своих клиентах еще раз, перепродав им колонки цифр.

Уставшие от хайпа с Big Data

Разумеется, нельзя сказать, что Google Flu Trends совсем не работает, а предсказание на основе Big Data – мошенничество. Просто молоток можно использовать для создания прекрасного, но большинство его используют для починки убогого, а некоторые – и вовсе не во благо. Сейчас, похоже, что сильно увеличившееся давление предсказателей на Big Data, начало маркетологам мешать. Везде! Кроме как, в России – у нас все, даже самые прогрессивные и быстро набирающие обороты тенденции, наблюдаются с запаздыванием лет на пять.

Что до остального мира, то рекламодатели устали от многолетнего хайпа вокруг Big Data. Вообще же, первое, что тогда на Dmexco’2017 бросилось в глаза в первый же день выставки – из выступлений и презентаций практически стал исчезать термин Big Data. Это было заметно, так как последние четыре года этим словосочетанием пользовался каждый второй выступающий. И причина ослабевания "Big Data давления" на бизнес-сообщество и интернет-сообщество понятна:

Много трафика – много данных, много фальшивого трафика генерирует много фальшивых данных, на основе которых строятся недостоверные модели, на следование которым тратятся многомиллиардные бюджеты.

Что же дальше?

Если до сих пор все мысли IT-специалистов и аналитиков были заняты созданием баз данных, созданием принципов хранения, классификации информации, полученной из разных источников, то теперь, когда подобные хранилища созданы, для многих брендов стала очевидной бессмысленность анализа разных источников, накопления и складирования данных как таковых. Хранение и поверхностный анализ больших объемов информации стоит больших денег и не оправдывает себя, если нет моделей сопоставления данных, если бренд не в состоянии обработать и использовать статистику для повышения эффективности продаж – нет практической ценности.

Результатом переосмысления задачи "получить доступ к данным в маркетинге" стало появление нового термина, который отражает рост спроса на эффективное использование данных. В своих выступлениях на Dmexco’2017, в блогах и на конференциях, докладчики все чаще говорят о технологиях работы с большими данными как части (англ. predictive marketing).

Ну это про маркетинг! А что же с предсказанием на Big Data вообще? Однозначно это сработает в естественных науках, там, где есть накопленные данные за многолетний период, где за это же время откатана строгая математическая модель и понимание протекающих естественных процессов. Это реально сработает если анализировать макро-тенденции, происходящие в макромасштабе – тренды общества. Это реально сработатет, если анализировать замкнутые устойчивые системы микромасштаба (деревня, магазин на станции, на которую никогда не приходят поезда со случайными покупателями). Это применимо для оценки поведения в будущем конкретного человека. Но как только появляется взаимное влияние, вновь возникающие тенденции, "черные лебеди" (Насим Талеб) – исследуемая система предстает "черным ящиком".

Мы регулярно натыкаемся на модные слова и определения, смысл которых нам интуитивно вроде бы понятен, но четкой картины того, что это все-таки за штука и как она работает, у нас нет.

Одним из таких понятий является Big Data, в русском языке иногда можно встретить буквальный перевод — «большие данные», но чаще люди говорят и пишут как есть: Big Data. Все наверняка слышали или, по крайней мере, встречали это словосочетание в интернете, и оно вроде бы несложное, но что конкретно имеется в виду, далеким от тонкостей диджитал-мира офисным гуманитариям понятно не всегда.

Отличной попыткой восполнить этот пробел в мозгах самого широкого круга пользователей является статья одного из наших любимых авторов Бернарда Марра , которая так и называется «Что такое Big Data? Суперпростое объяснение для каждого» . Без заумного жаргона с единственной целью объяснить ключевые идеи этого феномена для каждого вне зависимости от образования и сферы деятельности.

На самом деле последние несколько лет мы уже живем в мире, насквозь пронизанном Big Data, но продолжаем путаться в понимании того, что же это все-таки такое. Отчасти это происходит и потому, что сама по себе концепция Big Data постоянно трансформируется и переосмысляется, потому что мир высоких технологий и обработки больших массивов информации очень быстро меняется, включая в себя все новые и новые опции. А объем этой информации постоянно растет.

Итак, что значит Big Data — 2017?

Все началось со взрывным ростом количества данных, которые мы создаем с начала цифровой эры. Это стало возможным в основном благодаря росту числа и мощности компьютеров, расширению интернета и развитию технологий, способных захватывать информацию из реального, физического мира, в котором все мы живем, и конвертировать ее в цифровые данные.

В 2017-м мы производим данные, когда заходим в интернет, когда пользуемся нашими укомплектованными GPS-смартфонами, когда общаемся с друзьями в соцсетях, скачиваем мобильные приложения или музыку, когда совершаем покупки.

Можно сказать, что мы оставляем за собой множество цифровых следов, что бы мы ни делали, если наши действия включают в себя какие-либо цифровые транзакции. То есть уже почти всегда и везде.

Помимо этого, с огромной скоростью растет количество данных, сгенерированных самими машинами. Данные создаются и передаются, когда наши умные девайсы коммуницируют друг с другом. Производственные предприятия по всему миру оснащаются оборудованием, которое денно и нощно собирает и передает данные.

В ближайшем будущем наши улицы будут заполнены самоуправляемыми автомобилями, самостоятельно прокладывающими маршруты на основе четырехмерных карт, данные которых генерируются в режиме реального времени.

Что может Big Data?

Бесконечно растущий поток сенсорной информации, фотографий, текстовых сообщений, аудио- и видеоданных лежит в основе Big Data, которые мы можем использовать так, как невозможно было даже представить себе несколько лет назад.

Прямо сейчас основанные на Big Data проекты помогают:

Лечить болезни и предотвращать рак . Основанная на использовании Big Data медицина анализирует огромное количество медицинских записей и снимков, что делает возможным очень раннюю диагностику и способствует созданию новых методов лечения.

Бороться с голодом . Сельское хозяйство переживает настоящую революцию Big Data, которая позволяет использовать ресурсы так, чтобы максимально увеличить урожайность при минимальном вмешательстве в экосистему и оптимизировать использование машин и оборудования.

Открывать далекие планеты . НАСА, к примеру, анализирует огромное количество данных и выстраивает с их помощью модели будущих миссий в далекие миры.

Предсказывать чрезвычайные ситуации различной природы и минимизировать возможный ущерб. Данные многочисленных сенсоров могут предсказать, где и когда произойдет следующее землетрясение или возможное поведение людей в чрезвычайной ситуации, что повышает шансы на выживание.

Предотвращать преступления за счет использования технологий, которые позволяют более эффективно распределять ресурсы и направлять их туда, где они наиболее необходимы.

И самое близкое большинству из нас: Big Data делает жизнь обычного человека проще и удобнее — это и онлайн-шопинг, и планирование поездок, и навигация в условиях мегаполиса.

Выбрать лучшее время для покупки авиабилетов и решить, какой фильм или сериал посмотреть, стало гораздо легче именно благодаря работе Big Data.

Как это работает?

Big Data работает на принципе: чем больше вы знаете о чем-либо, тем точнее вы можете предсказать, что случится в будущем. Сравнение отдельных данных и отношений между ними (речь идет об огромном количестве данных и невероятно большом количестве возможных связей между ними) позволяет обнаружить ранее скрытые закономерности. Это дает возможность заглянуть внутрь проблемы и в конечном итоге понимание того, как мы можем управлять тем или иным процессом.

Чаще всего процесс обработки больших объемов информации включает в себя построение моделей, базирующихся на собранных данных, и запуск симуляций, в процессе которого постоянно меняются ключевые настройки, при этом каждый раз система мониторит, как «смена настроек» влияет на возможный результат.

Этот процесс полностью автоматизирован, ведь речь идет об анализе миллионов симуляций, перебора всех возможных вариантов вплоть до того момента, пока паттерн (нужная схема) не будет найден или пока не случится «просветление», что поможет решить задачу, ради которой все и затевалось.

В отличие от привычного нам мира предметов и вычислений, данные принимаются в неструктурированной форме, то есть их сложно засунуть в привычные нам, людям, таблицы с ячейками и столбиками. Огромное количество данных передается как изображения или видео: от спутниковых снимков до селфи, которые вы постите в инстаграм или фейсбук, — так же, как записи в email и мессенджер или телефонные звонки.

Чтобы придать всему этому бесконечному и разношерстному потоку данных практический смысл, Big Data часто использует самые передовые технологии анализа, которые включают в себя искусственный интеллект и машинное обучение (это когда программа в компьютере обучает другие программы).

Компьютеры сами обучаются определять, что представляет та или иная информация — например, распознавать изображения, язык, — и они могут делать это намного быстрее, чем люди.

Большой брат?

Пропорционально беспрецедентным возможностям, которые дает нам сегодня Big Data, растет количество опасений и вопросов, связанных с ее использованием.

НЕПРИКОСНОВЕННОСТЬ ЛИЧНЫХ ДАННЫХ. Big Data собирает огромное количество информации о нашей частной жизни. Очень много информации, которую мы предпочли бы сохранить в тайне.

БЕЗОПАСНОСТЬ. Даже если мы решили, что в передаче всех наших персональных данных машине ради какой-то конкретной, выгодной нам цели нет ничего страшного, можем ли мы быть уверены, что наши данные хранятся в безопасном месте?
Кто и как может нам это гарантировать?

ДИСКРИМИНАЦИЯ. Когда все известно, допустимо ли подвергать людей дискриминации на основании того, что о них известно благодаря Big Data? Банки используют кредитную историю, а страховые компании определяют стоимость автостраховки, исходя из того, что они знаю о вас. Как далеко это может зайти?

Можно предположить, что ради минимизации рисков компании, государственные органы и даже частные лица будут использовать то, что они могут узнать о нас, и по каким-то соображениям ограничивать нам доступ к ресурсам и информации.

При всех преимуществах мы должны признать, что все эти опасения также являются неотъемлемой частью Big Data. До последнего времени над ответами ломали голову ученые, но сейчас пришло время, когда волна докатилась до бизнеса, который хочет использовать преимущества Big Data в своих целях. А это может быть чревато в том числе и катастрофическими последствиями.

Колонка преподавателей НИУ ВШЭ о мифах и кейсах работы с большими данными

Преподаватели Школы новых медиа НИУ ВШЭ Константин Романов и Александр Пятигорский, который также является директором по цифровой трансформации «Билайна», написали для сайт колонку о главных заблуждениях по поводу больших данных - примерах использования технологии и инструментах. Авторы предполагают, что публикация поможет руководителям компаний разобраться в этом понятии.

Мифы и заблуждения о Big Data

Big Data - это не маркетинг

Термин Big Data стал очень модным - его используют в миллионах ситуаций и в сотнях разных интерпретаций, зачастую не имеющих отношения к тому, чем он является. Часто в головах людей происходит подмена понятий, и Big Data путают с маркетинговым продуктом. Более того, в некоторых компаниях Big Data является частью маркетингового подразделения. Результат анализа больших данных действительно может быть источником для маркетинговой активности, но не более того. Посмотрим, как это работает.

Если мы определили список тех, кто покупал в нашем магазине товары на сумму более трех тысяч рублей два месяца назад, а затем послали этим пользователям какое-то предложение, то это типичный маркетинг. Мы выводим понятную закономерность из структурных данных, и используем ее для увеличения продаж.

Однако если мы соединим данные CRM с потоковой информацией, например, из Instagram, и проанализируем их, то найдем закономерность: человеку, который снизил свою активность в среду вечером и на чьей последней фотографии изображены котята, следует сделать определенное предложение. Это уже будет Big Data. Мы нашли триггер, передали его маркетологам, а они его использовали в своих целях.

Из этого следует, что технология обычно работает с неструктурированными данными, а если данные и структурированы, то система всё равно продолжает искать в них скрытые закономерности, чего не делает маркетинг.

Big Data - это не ИТ

Вторая крайность этой истории: Big Data часто путают с ИТ. Это связано с тем, что в российских компаниях, как правило, именно ИТ-специалисты являются драйверами всех технологий, в том числе и больших данных. Поэтому, если всё происходит именно в этом отделе, для компании в целом создается впечатление, что это какая-то деятельность ИТ.

На самом деле, здесь есть коренное различие: Big Data - это деятельность, направленная на получение определенного продукта, что совсем не относится к ИТ, хотя без них технология и не может существовать.

Big Data - не всегда сбор и анализ информации

Есть ещё одно заблуждение относительно Big Data. Все понимают, что эта технология связана с большими объемами данных, но какого рода данные имеются в виду, не всегда ясно. Собирать и использовать информацию может каждый, сейчас это возможно не только в фильмах про , но и в любой, даже совсем маленькой компании. Вопрос только в том, что именно собирать и как это использовать с пользой для себя.

Но следует понять, что технологией Big Data не будет являться сбор и анализ совершенно любой информации. Например, если вы соберете в социальных сетях данные о конкретном человеке, это не будет Big Data.

Что такое Big Data на самом деле

Big Data состоит из трех элементов:

  • данные;
  • аналитика;
  • технологии.

Big Data - не что-то одно из этих составляющих, а связка всех трех элементов. Часто люди подменяют понятия: кто-то считает, что Big Data - это только данные, кто-то - что технологии. Но по факту, сколько бы данных вы ни собрали, вы ничего с ними не сделаете без нужных технологий и аналитики. Если есть хорошая аналитика, но нет данных, - тем более плохо.

Если говорить о данных, то это не только тексты, но и все фотографии, размещаемые в Instagram, и вообще всё, что можно проанализировать и использовать для разных целей и задач. Другими словами, под Data понимаются огромные объемы внутренних и внешних данных различных структур.

Также нужна аналитика, потому что задача Big Data - построить какие-то закономерности. То есть аналитика - это выявление скрытых зависимостей и поиск новых вопросов и ответов на основе анализа всего объема разнородных данных. Причем Big Data ставит вопросы, которые напрямую из этих данных не выводим.

Если говорить об изображениях, то факт размещения вами своего фото в голубой футболке ни о чем не говорит. Но если использовать фотографию для Big Data-моделирования, то может выясниться, что именно сейчас вам следует предложить кредит, потому что в вашей социальной группе такое поведение говорит об определенном феномене в действиях. Поэтому «голые» данные без аналитики, без выявления скрытых и неочевидных зависимостей Big Data не являются.

Итак, у нас есть большие данные. Их массив огромен. Также у нас есть аналитик. Но как сделать так, чтобы из этих сырых данных у нас родилось конкретное решение? Для этого нам нужны технологии, которые позволяют их не просто складировать (а раньше и это было невозможно), но и анализировать.

Проще говоря, если у вас есть много данных, вам потребуются технологии, к примеру, Hadoop , которые дают возможность сохранить всю информацию в первозданном виде для последующего анализа. Такого рода технологии возникли в интернет-гигантах, поскольку именно они первыми столкнулись с проблемой хранения большого массива данных и его анализа для последующей монетизации.

Кроме инструментов для оптимизированного и дешевого хранения данных, нужны аналитические инструменты, а также надстройки к используемой платформе. К примеру, вокруг Hadoop уже образовалась целая экосистема из связанных проектов и технологий. Вот некоторые из них:

  • Pig - декларативный язык анализа данных.
  • Hive - анализ данных с использованием языка, близкого к SQL.
  • Oozie - поток работ в Hadoop.
  • Hbase - база данных (нереляционная), аналог Google Big Table.
  • Mahout - машинное обучение.
  • Sqoop - перенос данных из РСЦБД в Hadoop и наоборот.
  • Flume - перенос логов в HDFS.
  • Zookeeper, MRUnit, Avro, Giraph, Ambari, Cassandra, HCatalog, Fuse-DFS и так далее.

Все эти инструменты доступны каждому бесплатно, но есть и набор платных надстроек.

Кроме того, нужны специалисты: это разработчик и аналитик (так называемый Data Scientist). Также необходим менеджер, способный понять, как эту аналитику применить для решения конкретной задачи, потому что сама по себе она совершенно бессмысленна, если ее не встраивать в бизнес-процессы.

Все три сотрудника должны работать в команде. Менеджер, который дает специалисту по Data Science задание найти определенную закономерность, должен понимать, что далеко не всегда найдется именно то, что ему нужно. В таком случае руководитель должен внимательно слушать, что же нашел Data Scientist, поскольку зачастую его находки оказываются более интересными и полезными для бизнеса. Ваша задача - применить это к бизнесу и сделать из этого продукт.

Несмотря на то, что сейчас есть множество разного рода машин и технологий, окончательное решение всегда остается за человеком. Для этого информацию нужно как-то визуализировать. Инструментов для этого довольно много.

Самый показательный пример - это геоаналитические отчеты. Компания «Билайн» много работает с правительствами разных городов и областей. Очень часто эти организации заказывают отчеты типа «Транспортная загруженность в определенном месте».

Понятно, что подобный отчет должен попасть к правительственным структурам в простой и понятной им форме. Если же мы предоставим им огромную и совершенно непонятную таблицу (то есть информацию в том виде, в каком ее получаем мы), они вряд ли купят такой отчет - он будет совершенно бесполезен, они не вынесут из него тех знаний, которые хотели получить.

Поэтому, какими бы хорошими ни были специалисты по Data Science и какие бы закономерности они ни находили, вы не сможете работать с этими данными без качественных инструментов визуализации.

Источники данных

Массив получаемых данных очень велик, поэтому его можно разделить на некоторые группы.

Внутренние данные компании

Хотя к этой группе относится 80% собираемых данных, этот источник не всегда используют. Часто это данные, которые, казалось бы, вообще никому не нужны, например, логи. Но если посмотреть на них под другим углом, иногда можно найти в них неожиданные закономерности.

Условно бесплатные источники

Сюда относятся данные социальных сетей, интернета и всего, куда можно бесплатно проникнуть. Почему условно бесплатно? С одной стороны, эти данные доступны каждому, но если вы являетесь крупной компанией, то получать их в размерах абонентской базы в десятки тысяч, сотни или миллионы клиентов - уже непростая задача. Поэтому на рынке существуют платные сервисы по предоставлению этих данных.

Платные источники

Сюда относятся компании, которые продают данные за деньги. Это могут быть телекомы, DMP, интернет-компании, бюро кредитных историй и агрегаторы. В России телекомы не продают данные. Во-первых, это экономически невыгодно, а во-вторых, запрещено законом. Поэтому они продают результаты их обработки, например, геоаналитические отчеты.

Открытые данные

Государство идет навстречу бизнесу и дает возможность пользоваться данными, которые они собирают. В большей степени это развито на Западе, но Россия в этом плане тоже идет в ногу со временем. Например, существует Портал открытых данных Правительства Москвы, где публикуется информация по различным объектам городской инфраструктуры.

Для жителей и гостей Москвы данные представлены в табличном и картографическом виде, а для разработчиков - в специальных машиночитаемых форматах. Пока проект работает в ограниченном режиме, но развивается, а значит, тоже является источником данных, который вы можете использовать для своих бизнес-задач.

Исследования

Как уже отмечалось, задача Big Data - найти закономерность. Часто исследования, проводимые по всему миру, могут стать точкой опоры для нахождения той или иной закономерности - вы можете получить конкретный результат и попытаться применить похожую логику в своих целях.

Big Data - это область, в которой работают не все законы математики. Например, «1»+«1» - это не «2», а значительно больше, потому что при смешении источников данных можно значительно усилить эффект.

Примеры продуктов

Многие знакомы с сервисом по подбору музыки Spotify. Он прекрасен тем, что не спрашивает у пользователей, какое у них сегодня настроение, а сам вычисляет это на основе доступных ему источников. Он всегда знает, что вам нужно сейчас - джаз или тяжелый рок. Это то ключевое отличие, которое обеспечивает ему поклонников и отличает от других сервисов.

Подобные продукты принято называть sense-продуктами - такими, которые чувствуют своего клиента.

Технологию Big Data применяют и в автомобилестроении. Например, это делает Tesla - в их последней модели есть автопилот. Компания стремится создать машину, которая сама будет везти пассажира туда, куда ему нужно. Без Big Data это невозможно, потому что если мы будем использовать только те данные, которые получаем напрямую, как это делает человек, то автомобиль не сможет усовершенствоваться.

Когда мы ведем автомобиль сами, то с помощью наших нейронов принимаем решения, исходя из множества факторов, которых мы даже не замечаем. Например, мы можем не осознать, почему решили не газовать сразу на зеленый свет, а потом окажется, что решение было верным - мимо вас пронеслась машина на бешеной скорости, и вы избежали аварии.

Также можно привести пример использования Big Data в спорте. В 2002 году генеральный менеджер бейсбольной команды Oakland Athletics Билли Бин решил разрушить парадигму того, как нужно искать себе спортсменов - он выбрал и обучил игроков «по цифрам».

Обычно менеджеры смотрят на успехи игроков, но в данном случае всё было иначе - чтобы получить результат, менеджер изучал, какие комбинации спортсменов ему нужны, обращая внимания на индивидуальные характеристики. Причем спортсменов он выбрал таких, которые сами по себе не представляли большого потенциала, зато команда в целом получилась настолько успешной, что выиграла двадцать матчей подряд.

Режиссер Беннетт Миллер в последствии снял фильм, посвященный этой истории, - «Человек, который изменил всё» в главной роли с Брэдом Питтом.

Технология Big Data полезна и в финансовом секторе. Ни один человек на свете не сможет самостоятельно и точно определить, стоит ли давать кому-то кредит. Для того, чтобы принять решение, производится скоринг , то есть строится вероятностная модель, по которой можно понять, вернет этот человек деньги или нет. Дальше скоринг применяется на всех этапах: можно, например, просчитать, что в определенный момент человек перестанет платить.

Большие данные позволяют не только заработать деньги, но и сэкономить их. В частности, эта технология помогла Министерству труда Германии сократить расходы на пособия по безработице на 10 млрд евро, так как после анализа информации стало понятно, что 20% пособий выплачивалось незаслуженно.

Также технологии применяются в медицине (особенно это характерно для Израиля). С помощью Big Data можно поставить значительно более точный анализ, чем это сделает врач с тридцатилетним стажем.

Любой доктор, когда ставит диагноз, опирается лишь на свой собственный опыт. Когда это делает машина, она исходит из опыта тысяч таких врачей и всех существующих историй болезни. Она учитывает то, из какого материала сделан дом пациента, в каком районе живет пострадавший, какая там задымленность и так далее. То есть она учитывает массу факторов, которые врачи не берут в расчет.

Примером использования Big Data в здравоохранении можно назвать проект Project Artemis, который внедрила Детская больница Торонто. Это информационная система, которая собирает и анализирует данные по младенцам в реальном времени. Машина позволяет анализировать 1260 показателей здоровья каждого ребенка ежесекундно. Этот проект направлен на прогноз нестабильного состояния ребенка и профилактику заболеваний у детей.

Большие данные начинают использовать и в России: например, подразделение больших данных есть у «Яндекса». Компания совместно с «АстраЗенекой» и Российским обществом клинической онкологии RUSSCO запустили платформу RAY, предназначенную для генетиков и молекулярных биологов. Проект позволяет улучшить методы диагностики рака и выявления предрасположенности к онкологическим заболеваниям. Платформа начнет работу в декабре 2016 года.

Другой проект Yandex Data Factory - «Снайпер », разработанный совместно с Магнитогорским металлургическим комбинатом и направленный на оптимизацию процессов плавки стали с помощью алгоритмов машинного обучения. Планируется, что конечный программный продукт будет выдавать оптимальное количество ферросплавов и добавочных материалов при производстве стали.

Big Data используется или может использоваться абсолютно во всех областях - вплоть до того, что данные мобильных операторов покупают даже службы водоснабжения. В частности, это характерно для Рима, где очень слабая система канализации, поэтому они с помощью Big Data прогнозируют активность в определенных частях города, что помогает им предотвращать прорывы труб и другие проблемы.

В общем, есть огромное число продуктов, которые строятся на Big Data. Они могут менять какую-то сферу тотально, как в здравоохранении, а могут лишь модифицировать ее, как в работе интернет-магазинов. В любом случае, Big Data открывает большие возможности. Нужно всего лишь научиться с ней работать.

По материалам research&trends

Big Data, «Большие данные» вот уже несколько лет как стали притчей во языцех в IT-и маркетинговой прессе. И понятно: цифровые технологии пронизали жизнь современного человека, «все пишется». Объем данных о самых разных сторонах жизни растет, и одновременно растут возможности хранения информации.

Глобальные технологии для хранения информации

Источник: Hilbert and Lopez, `The world"s technological capacity to store, communicate, and compute information,`Science, 2011 Global.

Большинство экспертов сходятся во мнении, что ускорение роста объема данных является объективной реальностью. Социальные сети, мобильные устройства, данные с измерительных устройств, бизнес-информация – вот лишь несколько видов источников, способных генерировать гигантские объемы информации. По данным исследования IDC Digital Universe , опубликованного в 2012 году, ближайшие 8 лет количество данных в мире достигнет 40 Зб (zettabytes) что эквивалентно 5200 Гб на каждого жителя планеты.

Рост собираемой цифровой информации в США


Источник: IDC

Значительную часть информации создают не люди, а роботы, взаимодействующие как друг с другом, так и с другими сетями данных – такие, как, например, сенсоры и интеллектуальные устройства. При таких темпах роста количество данных в мире, по прогнозам исследователей, будет ежегодно удваиваться. Количество виртуальных и физических серверов в мире вырастет десятикратно за счет расширения и создания новых data-центров. В связи с этим растет потребность в эффективном использовании и монетизации этих данных. Поскольку использование Big Data в бизнесе требует немалых инвестиций, то надо ясно понимать ситуацию. А она, в сущности, проста: повысить эффективность бизнеса можно сокращая расходы или/и увеличивая объем продаж.

Для чего нужны Big Data

Парадигма Big Data определяет три основных типа задач.

  • Хранение и управление объемом данных в сотни терабайт или петабайт, которые обычные реляционные базы данных не позволяют эффективно использовать.
  • Организация неструктурированной информации, состоящей из текстов, изображений, видео и других типов данных.
  • Анализ Big Data, который ставит вопрос о способах работы с неструктурированной информацией, генерацию аналитических отчетов, а также внедрение прогностических моделей.

Рынок проектов Big Data пересекается с рынком бизнес-аналитики (BA), объем которого в мире, по оценкам экспертов, в 2012 году составил около 100 млрд. долларов. Он включает в себя компоненты сетевых технологий, серверов, программного обеспечения и технических услуг.

Также использование технологий Big Data актуально для решений класса гарантирования доходов (RA), предназначенных для автоматизации деятельности компаний. Современные системы гарантирования доходов включают в себя инструменты обнаружения несоответствий и углубленного анализа данных, позволяющие своевременно обнаружить возможные потери, либо искажение информации, способные привести к снижению финансовых результатов. На этом фоне российские компании, подтверждающие наличие спроса технологий Big Data на отечественном рынке, отмечают, что факторами, которые стимулируют развитие Big Data в России, являются рост данных, ускорение принятия управленческих решений и повышение их качества.

Что мешает работать с Big Data

Сегодня анализируется только 0,5% накопленных цифровых данных, несмотря на то, что объективно существуют общеотраслевые задачи, которые можно было бы решить с помощью аналитических решений класса Big Data. Развитые IT-рынки уже имеют результаты, по которым можно оценить ожидания, связанные с накоплением и обработкой больших данных.

Одним из главных факторов, который тормозит внедрение Big Data - проектов, помимо высокой стоимости, считается проблема выбора обрабатываемых данных : то есть определение того, какие данные необходимо извлекать, хранить и анализировать, а какие – не принимать во внимание.

Многие представители бизнеса отмечают, что сложности при внедрении Big Data-проектов связаны с нехваткой специалистов – маркетологов и аналитиков. От качества работы сотрудников, занимающихся глубинной и предикативной аналитикой, напрямую зависит скорость возврата инвестиций в Big Data. Огромный потенциал уже существующих в организации данных часто не может быть эффективно использован самими маркетологами из-за устаревших бизнес-процессов или внутренних регламентов. Поэтому часто проекты Big Data воспринимаются бизнесом как сложные не только в реализации, но и в оценке результатов: ценности собранных данных. Специфика работы с данными требует от маркетологов и аналитиков переключения внимания с технологий и создания отчетов на решение конкретных бизнес-задач.

В связи с большим объемом и высокой скоростью потока данных, процесс их сбора предполагает процедуры ETL в режиме реального времени. Для справки: ETL – от англ. Extract , Transform , Load - дословно «извлечение, преобразование, загрузка») - один из основных процессов в управлении хранилищами данных, который включает в себя: извлечение данных из внешних источников, их трансформацию и очистку с целью соответствия нуждам ETL следует рассматривать не только как процесс переноса данных из одного приложения в другое, но и как инструмент подготовки данных к анализу.

И тогда вопросы обеспечения безопасности данных, поступающих из внешних источников, должны иметь решения, соответствующие объемам собираемой информации. Так как методы анализа Big Data развиваются пока только вслед за ростом объема данных, большую роль играет свойство аналитических платформ использовать новые методы подготовки и агрегирования данных. Это говорит о том, что, например, данные о потенциальных покупателях или массивное хранилище данных с историей кликов на сайтах online-магазинов могут быть интересны для решения разных задач.

Трудности не останавливают

Несмотря на все сложности с внедрением Big Data, бизнес намерен увеличивать вложения в это направление. Как следует из данных Gartner , в 2013 году 64% крупнейших мировых компаний уже инвестировали, либо имеют планы инвестировать в развертывание технологий в области Big Data для своего бизнеса, тогда, как в 2012 году таких было 58%. По данным исследования Gartner, лидерами инвестирующих в Big Data отраслей являются медиа компании, телеком, банковский сектор и сервисные компании. Успешные результаты внедрения Big Data уже достигнуты многими крупными игроками в сфере розничной торговли в части использования данных, полученных с помощью инструментов радиочастотной идентификации, систем логистики и репленишмента (от англ. replenishment - накопление, пополнение – R&T), а также из программ лояльности. Удачный опыт ритейла стимулирует другие отрасли рынка находить новые эффективные способы монетизации больших данных, чтобы превратить их анализ в ресурс, работающий на развитие бизнеса. Благодаря этому, по прогнозам экспертов, в период до 2020 года инвестиции в управление, хранение снизятся на каждый гигабайт данных с 2$ до 0,2$, а вот на изучение и анализ технологических свойств Big Data вырастут всего на 40%.

Расходы, представленные в различных инвестиционных проектах в области Big Data, имеют разный характер. Статьи затрат зависят от видов продуктов, которые выбираются, исходя из определенных решений. Наибольшая часть затрат в инвестиционных проектах, по мнению специалистов, приходится на продукты, связанные со сбором, структурированием данных, очисткой и управлением информацией.

Как это делается

Существует множество комбинаций программного и аппаратного обеспечения, которые позволяют создавать эффективные решения Big Data для различных бизнес дисциплин: от социальных медиа и мобильных приложений, до интеллектуального анализа и визуализации коммерческих данных. Важное достоинство Big Data – это совместимость новых инструментов с широко используемыми в бизнесе базами данных, что особенно важно при работе с кросс-дисциплинарными проектами, например, такими как организация мульти-канальных продаж и поддержки покупателей.

Последовательность работы с Big Data состоит из сбора данных, структурирования полученной информации с помощью отчетов и дашбордов (dashboard), создания инсайтов и контекстов, а также формулирования рекомендаций к действию. Так как работа с Big Data подразумевает большие затраты на сбор данных, результат обработки которых заранее неизвестен, основной задачей является четкое понимание, для чего нужны данные, а не то, как много их есть в наличии. В этом случае сбор данных превращается в процесс получения исключительно нужной для решения конкретных задач информации.

Например, у телекоммуникационных провайдеров агрегируется огромное количество данных, в том числе о геолокации, которые постоянно пополняются. Эта информация может представлять коммерческий интерес для рекламных агентств, которые могут использовать ее для показа таргетированной и локальной рекламы, а также для ритейлеров и банков. Подобные данные могут сыграть важную роль при решении открытия торговой точки в определенной локации на основе данных о наличии мощного целевого потока людей. Есть пример измерения эффективности рекламы на outdoor-щитах в Лондоне. Сейчас охват подобной рекламы можно измерить лишь поставив возле рекламных конструкций людей со специальным устройством, подсчитывающим прохожих. По сравнению с таким видом измерения эффективности рекламы, у мобильного оператора куда больше возможностей – он точно знает местонахождение своих абонентов, ему известны их демографические характеристики, пол, возраст, семейное положение, и т.д.

На основе таких данных, в будущем открывается перспектива менять содержание рекламного сообщения, используя предпочтения конкретного человека, проходящего мимо рекламного щита. Если данные показывают, что проходящий мимо человек много путешествует, то ему можно будет показать рекламу курорта. Организаторы футбольного матча могут оценить количество болельщиков только когда те придут на матч. Но если бы они имели возможность запросить у оператора сотовой связи информацию, где посетители находились за час, день или месяц до матча, то это дало бы организаторам возможность планировать места для размещения рекламы следующих матчей.

Другой пример – как банки могут использовать Big Data для предотвращения мошенничества. Если клиент заявляет об утере карты, а при совершении покупки с ее помощью банк видит в режиме реального времени месторасположение телефона клиента в зоне покупки, где происходит транзакция, банк может проверить информацию по заявлению клиента, не пытался ли он обмануть его. Либо противоположная ситуация, когда клиент совершает покупку в магазине, банк видит, что карта, по которой происходит транзакция, и телефон клиента находятся в одном месте, банк может сделать вывод, что картой пользуется ее владелец. Благодаря подобным преимуществам Big Data, расширяются границы, которыми наделены традиционные хранилища данных.

Для успешного принятия решения о внедрении решений Big Data компании необходимо рассчитать инвестиционный кейс и это вызывает большие трудности из-за множества неизвестных составляющих. Парадоксом аналитики в подобных случаях становится прогнозирование будущего на основе прошлого, данные о котором зачастую отсутствуют. В этом случае важным фактором является четкое планирование своих первоначальных действий:

  • Во-первых, необходимо определить одну конкретную задачу бизнеса, для решения которой будут использоваться технологии Big Data, эта задача станет стержнем определения верности выбранной концепции. Необходимо сосредоточиться на сборе данных, связанных именно с этой задачей, а в ходе проверки концепции вы сможете использовать различные инструменты, процессы и методы управления, которые позволят принимать более обоснованные решения в будущем.
  • Во-вторых, маловероятно, что компания без навыков и опыта аналитики данных сможет успешно реализовать проект Big Data. Необходимые знания всегда вытекают из предыдущего опыта аналитики, что является основным фактором, влияющим на качество работы с данными. Важную роль играет культура использования данных, так как часто анализ информации открывает суровую правду о бизнесе, и чтобы принять эту правду и работать с ней, необходимы выработанные методы работы с данными.
  • В третьих, ценность технологий Big Data заключается в предоставлении инсайтов Хорошие аналитики остаются дефицитом на рынке. Ими принято называть специалистов, имеющих глубокое понимание коммерческого смысла данных и знающих, как правильно их применять. Анализ данных является средством для достижения целей бизнеса, и чтобы понять ценность Big Data, необходима соответствующая модель поведения и понимание своих действий. В этом случае большие данные дадут массу полезной информации о потребителях, на основе которой можно принять полезные для бизнеса решения.

Несмотря на то, что российский рынок Big Data только начинает формироваться, отдельные проекты в этой области уже реализуются достаточно успешно. Некоторые из них успешны в области сбора данных как, например, проекты для ФНС и банка «Тинькофф Кредитные Системы», другие - в части анализа данных и практического применения его результатов: это проект Synqera.

В банке «Тинькофф Кредитные Системы» был реализован проект по внедрению платформы EMC2 Greenplum, которая является инструментом для массивно-параллельных вычислений. В течение последних лет у банка выросли требования к скорости обработки накопленной информации и анализа данных в режиме реального времени, вызванные высокими темпами роста количества пользователей кредитных карт. Банк объявил о планах расширения использования технологий Big Data, в частности для обработки неструктурированных данных и работы с корпоративной информацией, получаемой из разных источников.

В ФНС России в настоящий момент идет создание аналитического слоя федерального хранилища данных. На его основе создается единое информационное пространство и технология доступа к налоговым данным для статистической и аналитической обработки. В ходе реализации проекта выполняются работы по централизации аналитической информации с более чем 1200 источниками местного уровня ИФНС.

Еще одним интересным примером анализа больших данных в режиме реального времени является российский стартап Synqera, который разработал платформу Simplate. Решение основано на обработке больших массивов данных, программа анализирует информацию о покупателях, историю их покупок, возраст, пол и даже настроение. На кассах в сети косметических магазинов были установлены сенсорные экраны с датчиками, распознающими эмоции покупателей. Программа определяет настроение человека, анализирует информацию о нем, определяет время суток и сканирует базу скидок магазина, после чего отправляет покупателю таргетированные сообщения об акциях и специальных предложениях. Это решение повышает покупательскую лояльность и увеличивает продажи ритейлеров.

Если говорить об иностранных успешных кейсах, то в этом плане интересен опыт применения технологий Big Data в компании Dunkin`Donuts, использующей данные в режиме реального времени для продажи продукции. Цифровые дисплеи в магазинах отображают предложения, сменяющие друг друга каждую минуту, в зависимости от времени суток и наличия продукции. По кассовым чекам компания получает данные, какие именно предложения получили наибольший отклик у покупателей. Данный подход обработки данных позволил увеличить прибыль и оборачиваемость товаров на складе.

Как показывает опыт внедрения Big Data-проектов, эта область призвана успешно решать современные бизнес-задачи. При этом важным фактором достижения коммерческих целей при работе с большими данными является выбор правильной стратегии, которая включает в себя аналитику, выявляющую запросы потребителей, а также использование инновационных технологий в области Big Data.

По данным глобального опроса, ежегодно проводимого Econsultancy и Adobe с 2012 года среди маркетологов компаний, «большие данные», характеризующие действия людей в Интернете, могут многое. Они способны оптимизировать оффлайновые бизнес-процессы, помочь понять как владельцы мобильных девайсов пользуются ими для поиска информации или просто «сделать маркетинг лучше», т.е. эффективнее. Причем, последняя функция год от года все популярнее, как это следует из приведенной нами диаграммы.

Основные области работы интернет-маркетологов с точки зрения отношений с покупателями


Источник : Econsultancy and Adobe, опубликовано – emarketer.com

Заметим, что национальность респондентов большого значения не имеет. Как показывает опрос, проведенный KPMG в 2013 году, доля «оптимистов», т.е. тех, кто использует Big Data при разработке бизнес-стратегии, составляет 56%, причем, колебания от региона к региону невелики: от 63% в североамериканских странах до 50% в EMEA.

Использование Big Data в различных регионах мира


Источник : KPMG, опубликовано – emarketer.com

Между тем, отношение маркетологов к подобным «модным трендам» в чем-то напоминает известный анекдот:

Скажи, Вано, ты помидоры любишь?
- Поесть люблю, а так – нет.

Несмотря на то, что маркетологи на словах «любят» Big Data и вроде бы даже их используют, на самом деле, «все сложно», как пишут о своих сердечных привязанностях в соцсетях.

По данным опроса, проведенного компанией Circle Research в январе 2014 года среди европейских маркетологов, 4 из 5 опрошенных не используют Big Data (при том, что они их, конечно, «любят»). Причины разные. Закоренелых скептиков немного – 17% и ровно столько же, сколько и их антиподов, т.е. тех, кто уверенно отвечает: «Да». Остальные – это колеблющиеся и сомневающиеся, «болото». Они уходят от прямого ответа под благовидными предлогами в духе того, что «пока нет, но скоро» или «подождем, пока остальные начнут».

Использование Big Data маркетологами, Европа, январь 2014


Источник: dnx, опубликовано – emarketer. com

Что же их смущает? Сущие пустяки. Некоторые (их ровно половина) попросту не верят этим данным. Другие (их тоже немало – 55%) затрудняются в соотнесении между собой множеств «данных» и «пользователей». У кого-то просто (выразимся политкорректно) внутрикорпоративный беспорядок: данные бесхозно гуляют между маркетинговыми отделами и IT структурами. У других софт не справляется с наплывом работы. И так далее. Поскольку суммарные доли существенно превышают 100%, понятно, что ситуация «множественных барьеров» встречается нередко.

Барьеры, препятствующие использованию Big Data в маркетинге


Источник: dnx, опубликовано – emarketer. com

Таким образом, приходится констатировать, что пока «Большие данные» - это большой потенциал, которым еще надо суметь воспользоваться. Кстати говоря, именно это может быть и стало причиной того, что Big Data утрачивают ореол «модного тренда», как об этом свидетельствуют данные опроса, проведенного уже упомянутой нами компании Econsultancy.

Самые значимые тренды в диджитал-маркетинге 2013-2014


Источник : Econsultancy and Adobe

На смену им выходит другой король – контент-маркетинг. Надолго ли?

Нельзя сказать, что Большие Данные – это какое-то принципиально новое явление. Большие источники данных существуют уже много лет: базы данных по покупкам клиентов, кредитным историям, образу жизни. И в течение многих лет ученые использовали эти данные, чтобы помогать компаниям оценивать риск и прогнозировать будущие потребности клиентов. Однако сегодня ситуация изменилась в двух аспектах:

Появились более сложные инструменты и методы для анализа и сочетания различных наборов данных;

Эти аналитические инструменты дополнены целой лавиной новых источников данных, вызванной переходом на цифровые технологии практически всех методов сбора и измерения данных.

Диапазон доступной информации одновременно и вдохновляет, и пугает исследователей, выросших в структурированной исследовательской среде. Потребительские настроения фиксируются сайтами и всевозможными разновидностями социальных медиа. Факт просмотра рекламы фиксируется не только телевизионными приставками, но и с помощью цифровых тегов и мобильных устройств, общающихся с телевизором.

Поведенческие данные (такие как число звонков, покупательские привычки и покупки) теперь доступны в режиме реального времени. Таким образом, многое из того, что раньше можно было получить с помощью исследований, сегодня можно узнать с помощью источников больших данных. И все эти информационные активы генерируются постоянно, независимо от каких бы то ни было исследовательских процессов. Эти изменения и заставляют нас задаться вопросом: смогут ли большие данные заменить собой классические исследования рынка.

Дело не в данных, дело в вопросах и ответах

Прежде чем заказывать похоронный звон по классическим исследованиям, мы должны напомнить себе, что решающее значение имеет не наличие тех или иных активов данных, а нечто иное. Что именно? Наша способность отвечать на вопросы, вот что. У нового мира больших данных есть одна забавная черта: результаты, полученные на основе новых информационных активов, приводят к появлению еще большего количества вопросов, а на эти вопросы, как правило, лучше всего отвечают традиционные исследования. Таким образом, по мере роста больших данных мы видим параллельный рост наличия и потребности в «маленьких данных» (small data), которые могут дать ответы на вопросы из мира больших данных.

Рассмотрим ситуацию: крупный рекламодатель проводит постоянный мониторинг трафика в магазинах и объемов продаж в режиме реального времени. Существующие исследовательские методики (в рамках которых мы опрашиваем участников исследовательских панелей об их мотивациях к покупке и поведении в точках продаж) помогают нам лучше нацелиться на определенные сегменты покупателей. Эти методики могут быть расширены – они могут включать в себя более широкий диапазон активов больших данных вплоть до того, что большие данные становятся средством пассивного наблюдения, а исследования – методом постоянного узкоцелевого исследования изменений или событий, требующих изучения. Именно так большие данные могут освободить исследования от лишней рутины. Первичные исследования уже не должны фокусироваться на том, что происходит (это сделают большие данные). Вместо этого первичные исследования могут сосредоточиться на объяснении того, почему мы наблюдаем те или иные тенденции или отклонения от тенденций. Исследователь сможет меньше думать о получении данных, и больше – о том, как их проанализировать и использовать.

В то же время мы видим, что большие данные позволяют решать одну из наших самых больших проблем – проблему чрезмерно длинных исследований. Изучение самих исследований показало, что чрезмерно раздутые исследовательские инструменты оказывают негативное воздействие на качество данных. Хотя многие специалисты в течение длительного времени признавали наличие этой проблемы, они неизменно отвечали на это фразой: «Но ведь эта информация нужна мне для высшего руководства», и длинные опросы продолжались.

В мире больших данных, где количественные показатели можно получить с помощью пассивного наблюдения, этот вопрос становится спорным. Опять же, давайте вспомним обо всех этих исследованиях, касающихся потребления. Если большие данные дают нам инсайты о потреблении с помощью пассивного наблюдения, то первичным исследованиям в форме опросов уже не надо собирать такого рода информацию, и мы сможем, наконец, подкрепить свое видение коротких опросов не только благими пожеланиями, но и чем-то реальным.

Big Data нуждаются в вашей помощи

Наконец, «большие» - это лишь одна из характеристик больших данных. Характеристика «большие» относится к размеру и масштабу данных. Конечно, это основная характеристика, поскольку объем этих данных выходит за рамки всего того, с чем мы работали прежде. Но другие характеристики этих новых потоков данных также важны: они зачастую плохо форматированы, неструктурированны (или, в лучшем случае, структурированы частично) и полны неопределенности. Развивающаяся область управления данными, метко названная «анализ сущностей» (entity analytics), призвана решить проблему преодоления шума в больших данных. Ее задача – проанализировать эти наборы данных и выяснить, сколько наблюдений относится к одному и тому же человеку, какие наблюдения являются текущими, и какие из них – пригодны для использования.

Такой вид очистки данных необходим для того, чтобы удалить шум или ошибочные данные при работе с активами больших или небольших данных, но этого недостаточно. Мы также должны создать контекст вокруг активов больших данных на основе нашего предыдущего опыта, аналитики и знания категории. На самом деле, многие аналитики указывают на способность управлять неопределенностью, присущей большим данным, как источник конкурентного преимущества, так как она позволяет принимать более эффективные решения.

И вот тут-то первичные исследования не только оказываются освобожденными от рутины благодаря большим данным, но и вносят свой вклад в создание контента и анализ в рамках больших данных.

Ярким примером этого может служить приложение нашей новой принципиально иной рамочной модели капитала бренда к социальным медиа (речь идет о разработанном в Millward Brown новом подходе к измерению ценности бренда The Meaningfully Different Framework – «Парадигма значимых отличий » - R & T ). Эта модель проверена на поведении в рамках конкретных рынков, реализована на стандартной основе, и ее легко применить в других маркетинговых направлениях и информационных системах для поддержки принятия решений. Другими словами, наша модель капитала бренда, опирающаяся на исследования методом опросов (хотя и не только на них) обладает всеми свойствами, необходимыми для преодоления неструктурированного, несвязного и неопределенного характера больших данных.

Рассмотрим данные по потребительским настроениям, предоставляемые социальными медиа. В сыром виде пики и спады потребительских настроений очень часто минимально коррелируют с параметрами капитала бренда и поведения, полученными в оффлайне: в данных просто слишком много шума. Но мы можем уменьшить этот шум, применяя наши модели потребительского смысла, дифференциации брендов, динамики и отличительных черт к сырым данным потребительских настроений – это способ обработки и агрегации данных социальных медиа по этим измерениям.

После того, как данные организованы в соответствии с нашей рамочной моделью, выявленные тренды обычно совпадают с параметрами капитала бренда и поведения, полученными в оффлайне. По сути, данные социальных медиа не могут говорить сами за себя. Чтобы использовать их для указанной цели требуется наш опыт и модели, выстроенные вокруг брендов. Когда социальные медиа дают нам уникальную информацию, выраженную на том языке, который потребители используют для описания брендов, мы должны использовать этот язык при создании своих исследований, чтобы сделать первичные исследования гораздо более эффективными.

Преимущества освобожденных исследований

Это возвращает нас к тому, что большие данные не столько заменяют исследования, сколько освобождают их. Исследователи будут освобождены от необходимости создавать новое исследование по каждому новому случаю. Постоянно растущие активы больших данных могут быть использованы для разных тем исследований, что позволяет последующим первичным исследованиям углубиться в тему и заполнить имеющиеся пробелы. Исследователи будут освобождены от необходимости полагаться на чрезмерно раздутые опросы. Вместо этого они смогут использовать краткие опросы и сосредоточиться на самых важных параметрах, что повышает качество данных.

Благодаря такому освобождению исследователи смогут использовать свои отработанные принципы и идеи, чтобы добавить точности и смысла активам больших данных, что приведет к появлению новых областей для исследований методом опроса. Этот цикл должен привести к более глубокому пониманию по целому ряду стратегических вопросов и, в конечном счете, к движению в сторону того, что всегда должно быть нашей главной целью - информировать и улучшать качество решений, касающихся бренда и коммуникаций.