Источник - CNews
О значении машинных данных и росте доходности крупного бизнеса, связанном с их применением, последних трендах и проблемах в сфере больших данных, а также об интересных кейсах в промышленном и телекоммуникационном секторах CNews рассказал Михаил Ефименко, технический директор компании ТАЛМЕР (входит в «ИКС Холдинг»).
CNews: Михаил, давайте начнем со стратегии: понимают ли крупные компании, что за большими данными скрывается не только пласт полезной информации о клиентах, но и реальное повышение доходности бизнеса?
Михаил Ефименко: Проблема в том, что крупные компании работают не со всем спектром машинных данных, а лишь с самыми очевидными. Если это телекоммуникационные корпорации, то чаще всего они используют информацию об абонентском опыте. Если это клиенты из банковского и финансового сектора, они предпочитают работать только с данными о том, как люди используют их продукты. Но есть еще целые пласты косвенной информации. Если ее правильно собрать и проанализировать, то можно понять, как без больших затрат сделать прибыльнее сразу несколько существующих услуг. Или как скорректировать новый продукт до вывода на рынок, чтобы избежать дорогостоящего исправления ошибок. В этой плоскости крупным корпорациям еще есть над чем работать.
Но, безусловно, у крупных компаний есть понимание, что тщательно проанализированные и вовремя предоставленные машинные данные положительно влияют на доходность бизнеса. Мы тоже помогаем получить это понимание. Например, предлагая компаниям их разных секторов экономики не масштабный и долгий проект с неясными результатами, а тщательно продуманные и просчитанные пилоты на 3-4 месяца. В ходе таких «пробников» наши специалисты собирают базовые машинные данные, проводят их первичную аналитику и предлагают несколько четких сценариев, в которых описано, какие данные и на что повлияют. На базе «пробника» мы вместе с клиентом выстраиваем бизнес-кейс, точно описывающий и проблемную область и то, как можно ее закрыть. Заранее, без предварительной аналитики, этого не определишь, ведь большинство данных – неявные.
Более того, клиент рассчитывает получить профит в одной области, а может в итоге получить его совсем в другой. Например, в одном из наших проектов в телекоме, связанном с анализом клиентского опыта в каналах самообслуживания, мы собирали данные и мониторили ошибки, возникающие у абонентов при использовании личного кабинета. Самое большое число ошибок возникало тогда, когда абоненты во второй раз хотели совершить обещанный платеж, но не могли. Бизнес-юнит клиента получил эти данные, сделал расчет и понял, что если разрешить определенным категориям абонентов совершать такой платеж, доход от услуги резко вырастет, причем за очень короткий срок. Начиная проект, заказчик не ожидал, что возможности для роста дохода окажутся в этой части. И это – лишь один из ярких примеров.
CNews: Назовите три ключевые сложноcти в использовании больших данных.
Михаил Ефименко: Во-первых, сбор данных. В крупных компаниях много разных бизнес-юнитов, у каждого свои данные и каждый за них бьется. Прибавьте сюда бюрократические проволочки, и вы поймете, почему возникает столько трудностей. Во-вторых, из массивов собранных данных нужно очень быстро сделать информативные выборки. Но эта проблема легко решается с помощью специализированных инструментов. Например, Elasticsearch отлично анализирует массивы неструктурированной информации. А почти универсальный Splunk прекрасно управляет журналами логов в режиме реального времени. Наконец, существует проблема с визуализацией полученных результатов. Бизнес должен мгновенно понять и оценить, что именно получили «технари». Если топ-менеджер увидит непонятную таблицу с рядами цифр, она окажется для него бесполезной. Ему нужны емкие графики, диаграммы, показывающие ситуацию «до» и «после». И готовые решения, на которые его бизнес-юниты могут опереться. Что касается инфраструктуры хранения данных, то здесь, как правило, проблем не возникает: на рынке представлено большое количество СХД, в том числе – российского производства, например, СХД от компании YADRO.
CNews: Большие данные – направление с большим потенциалом, позволяющее быстрее и четче реагировать на запросы клиентов или хайп?
Михаил Ефименко: Мне не нравится термин «большие данные» – он больше маркетинговый, чем технологический, в нем отчетливо слышен хайп. Я предпочитаю термин «машинные данные», он отчетливо отражает суть технологии. Сразу понятно, что эти данные формируются информационными системами, что их можно собрать, визуализировать и использовать в реальном времени. Актуальность машинных данных – самое важное. Потому что если они собирались неделями, то уже потеряли всю пользу для менеджмента. Зачем людям, принимающим сложные управленческие решения, информация, которой две-три недели?
CNews: Если крупная компания может, но не использует автоматизацию при принятии важных управленческих решений, насколько велик риск, что она останется в аутсайдерах?
Михаил Ефименко: Это уже не риск, а конкретная перспектива. Потому что если крупная компания забыла об автоматизации, то скорость бизнес-процессов и принятие решений, от которых зависит конкурентоспособность, оставляет желать лучшего. Если мы говорим о данных, которые в режиме реального времени превращаются в отчеты, то средний и высший менеджмент с их помощью может увидеть, что происходит с компанией здесь и сейчас, принять верные управленческие решения практически без задержек, повлиять на характер проектов, участие в тендерах, состав команды, результаты крупных переговоров, на заключение новых сделок. Второй момент связан с тем, что в классических отчетах о состоянии отдельных департаментов и направлений обычно представлен узкий набор показателей. А при полноценном использовании машинных данных классическая отчетность становится более полной и качественной. У организации появляется целостный взгляд на команду, процессы, тенденции на рынке, на свои слабые и сильные стороны. Это тоже приносит серьезные выгоды.
CNews: Появились ли за последний год новые инструменты для анализа структурированных и неструктурированных данных?
Михаил Ефименко: Не скажу, что произошла революция и появилось что-то принципиально новое. Скорее, те инструменты, которые уже есть, стали гораздо более развитыми и зрелыми. Для хранения и предварительной обработки данных так же хорошо, как и раньше, подходит Hadoop Stack от Apache Software Foundation. Для передачи данных пока не придумали ничего лучше, чем Kafka от Apache (распределенный программный брокер сообщений). Если говорить о системах работы с искусственным интеллектом, тут по-прежнему держит первенство Apache Spark и Python c фреймворками (TensorFlow, H2O, Pandas, Caffe2 и т.д.).
Чуть менее активно, чем раньше, используется американская Splunk – платформа для сбора, хранения, обработки и анализа машинных данных из тысяч любых разнородных источников. Но не по технологическим, а по политическим причинам. Но если говорить не об инструментах, а о людях, которые с ними работают, то, кроме досконального знания аналитики машинных данных, они должны уметь правильно оценивать задачи, стоящие перед конкретным бизнесом. И, оценив, просчитывать тот вариант, который снимет острые боли компании-клиента. Или укажет на новый, неожиданный вариант решения хронической проблемы.
CNews: Действительно, это редкие компетенции. Тем более, что кадровый голод в ИТ все обостряется. Что делать? Искать специалистов машинного обучения на рынке, готовить их внутри компании или действовать по какому-то смешанному варианту?
Михаил Ефименко: Специалисты по аналитике больших данных должны очень хорошо понимать потребности бизнеса и оргструктуру крупных корпоративных заказчиков, четко видеть и не путать зоны ответственности. Формировать их внутри – почти идеальный путь, он дает понимание всего, что я перечислил. Но есть и «темная сторона» – такой специалист со временем привыкает смотреть на самые первоочередные и, как правило, на самые очевидные показатели. И перестает уделять внимание менее очевидным данным. А ведь часто именно в косвенной информации и кроется решение задачи клиента. И тут свежий взгляд человека с рынка может дать другое видение того, как можно использовать полученные данные. Поэтому поиск ИТ-компетенций можно и нужно варьировать.
CNews: Помимо дефицита ИТ-компетенций, внедрение больших данных в крупных корпорациях тормозят еще и мифы в голове у заказчиков.
Михаил Ефименко: При внедрении больших данных заказчикам сложно понять, как собранная и проанализированная информация повлияет на бизнес. Любой сложный проект им нужно сначала защитить перед руководством, доказать, что он будет эффективен. А когда мы говорим о неявном влиянии данных на бизнес, о том, что сможем понять, насколько это эффективно, только тогда, когда начнем проект, у клиентов сразу возникает настороженность. Но грамотно спланированный пилотный проект в 80% случаев помогает эти страхи снять. Тем более, что он почти не требует ресурсов от заказчика – максимум, нужен список людей, которые дадут нужные данные. Результат пилота почти в 100% случаев – успешное лечение острой боли.
Приведу пример: подразделение крупной телекоммуникационной компании, отвечающее за борьбу с фродом, хотело выявить мошенников, маскирующихся под рядовых абонентов и делающих звонки с помощью SIM-бокса. При этом конкретных маячков, позволяющих определить, когда звонит мошенник, а когда абонент – не существует. Но мы пришли и сказали, что умеем это делать. Потенциальный заказчик дал нам огромный срез данных и попросил разобрать их, определив, где здесь абонент, а где SIM-бокс. Поверить нам сразу ему мешал миф, что это в принципе невозможно. А если и возможно, то ошибок все равно будет слишком много. Но наши аналитики отделили зерна от плевел, показав 95-процентную точность выборки. И мы начали сотрудничество, которое продолжается до сих пор. Это почти аксиома: вход в любой крупный проект с использованием машинных данных начинается с развенчания мифов в голове у заказчика.
CNews: Какие три самых острых тренда, влияющих на развитие больших данных, вы можете выделить?
Михаил Ефименко: Во-первых, появляется все больше источников данных. У устройств на производстве становится все больше телеметрических датчиков, они выдают все больше данных. Та же история с интернетом вещей – вещи все умнеют и умнеют. Они начинают «общаться» друг с другом, используя на порядок больше данных, чем раньше. И со всем этим надо работать – то есть, потребность в аналитике больших данных растет с каждым днем. Как и потребность в ИТ-компаниях, которые действительно умеют это делать.
Во-вторых, на рынок все больше влияет edge computing (периферийные вычисления). Установка вычислительных мощностей как можно ближе к конечной точке дает возможность собирать и обрабатывать данные рядом с их источником. Не приходится отправлять их в ЦОД, делать предварительную обработку. Можно очень быстро реагировать на изменение оперативной ситуации. Особенно там, где задержка критична. Например, гигантский завод может среагировать на поломки дорогого оборудования до того, как они произошли и нанесли многомиллионный ущерб. Или предотвратить крупную аварию – просто основываясь на динамике машинных данных («этот элемент изношен и требует срочной замены»). Общая конкуренция, которая ужесточается день ото дня, заставляет бизнес все больше оптимизировать процессы. Там, где исчерпаны возможности для явной оптимизации, начинается неявная – здесь чаще всего и помогает обработка больших данных. В противном случае большинство компаний даже не посмотрело бы в эту сторону.
CNews: Обязательно ли модернизировать ИТ-инфраструктуру при внедрении проектов по большим данным? Чем грозит пропуск этого этапа?
Михаил Ефименко: Если ИТ-инфраструктура работает плохо, то и без больших данных у компании ничего не получится. Постоянные сбои, дорогостоящие простои и остановка бизнес-процессов неприемлемы. У крупной компании бизнес-процессы, как правило, сильно автоматизированы. Если дает сбой инфраструктура, то и информационные системы сбоят. А их некорректная работа останавливает любые бизнес-процессы, пагубно влияя на всю компанию. Надежная ИТ-инфраструктура становится неотъемлемой составляющей для современных предприятий. Недавно мы построили ЦОД для «Металлоинвеста». На базе развернутой инфраструктуры работает корпоративная учетная система, в которой выполняются операции отгрузки и оплаты, а также сдается налоговая отчетность. К этой системе применены высокие требования по доступности и надежности. Любые инциденты по доступности будут критически отражаться на выполнении бизнес-операций и могут привести к существенным финансовым потерям.
Вернемся к проектам по большим данным: если у телекоммуникационных корпораций уже есть инфраструктура для доставки собранных данных с датчиков телеметрии, то любой другой компании, возможно, потребуется модернизация ИТ-инфраструктуры. Необходимо убедиться в достаточном количестве места для хранения данных, в самой инфраструктуре передачи данных. Кроме того, для обработки и визуализации машинных данных нужно много вычислительных мощностей.
CNews: Насколько крупный бизнес готов переносить большие данные в облако?
Михаил Ефименко: Если коротко – не готов. В первую очередь, из-за ревностного отношения enterprise-сектора к безопасности своих данных. Крупные компании по-прежнему боятся выносить их за периметр. Это большая проблема, мешающая и внедрению облачных решений, и реализации проектов по большим данным. Но и спорить с повышенными требованиями корпораций к информационной безопасности тяжело.
CNews: В каких отраслях наиболее, а где наименее востребовано применение больших данных?
Михаил Ефименко: Применение технологий больших данных востребовано во многих отраслях, если не во всех. Особенно ярко это видно по отраслям, в которых используется интернет вещей. Машинные данные и интернет вещей вообще идут рука об руку. Интернет вещей – это постоянные поставки массы разнородной информации от множества устройств. Их обязательно нужно структурировать как можно скорее, иначе они бесполезны для бизнеса. Машины как раз этим и занимаются. Кроме того, это связь и телекоммуникации – привлечение и, особенно, удержание абонентов, рост их лояльности. Защита от противоправных действий со стороны мошенников. Наконец, это любая крупная промышленность, где цена аварий, поломок, простоев чрезвычайно высока.
CNews: Расскажите о самых интересных проектах с применением больших данных, которые ваша компания реализовала за последнее время.
Михаил Ефименко: Проект по мониторингу клиентского опыта для одного их операторов связи. Это был интересный кейс из-за его сложности и объемов проанализированных данных. Расскажу подробнее: когда пользователь личного кабинета нажимает на одну кнопку, на это нажатие реагируют сразу десятки разных сервисов. Система должна мгновенно проверить, что нажатие повлияло на все, на что должно было повлиять. И подтвердить, что все запланированные после нажатия кнопки события произошли (услуга оказана или продлена, нужная сумма списана со счета абонента и пр.). Если произошла ошибка, данные от всех сервисов должны быть собраны в одном месте, а компании должно быть понятно, что они относятся именно к этому нажатию кнопки именно этим абонентом, и что сбой произошел вот в этом сервисе. Без использования машинных данных это невозможно. Похожие вопросы, связанные с интерфейсом пользователя с одной стороны и огромным количеством проверок с другой, возникают у большинства крупных операторов. И у интернет-магазинов, работающих с десятками миллионов клиентов. Правильно решить их помогает только качественный и оперативный анализ больших данных. Не менее интересный и частый кейс – поиск закономерностей и принципов, по которым можно отличить мошенника от абонента и таким образом защитить клиентов крупных операторов связи. Запросов на такие проекты у нас довольно много.