Big data в россии – Аналитический обзор рынка Big Data / Московская Биржа corporate blog / Habr

Содержание

РБК: Деньги на данных: три препятствия для монетизации big data в России – DIS Group

РБК, 2.04.2019

Деньги на данных: три препятствия для монетизации big data в России

Российские компании учатся зарабатывать на больших данных. На этом пути они совершают достижения и встречаются с препятствиями. Какие, рассказывает Павел Лихницкий, гендиректор DIS Group

Фото: Роман Пименов / Интерпресс / ТАСС

Как превратить данные в деньги
Большие данные (big data) — данные, которые собираются в больших объемах, в разных форматах и на больших скоростях (обычно для определения больших данных используются классические три V — Volume (объем), Variety (разнообразие), Velocity (скорость)). Эти три V открывают возможности для монетизации больших данных.

Раньше данные применялись только для описательной аналитики (например, для фиксации выполнения ключевых показателей эффективности — KPI, составления корпоративной отчетности) и повышения операционной эффективности. Эти области монетизации данных продолжают развиваться. Согласно данным нашего опроса, 25% представителей крупного и среднего бизнеса активно используют данные для принятия управленческих решений, а 23% — для повышения операционной эффективности. Однако с появлением big data появились и такие методы применения данных, как:

поиск инсайтов (полезные для бизнеса закономерности в данных),
тестирование бизнес-гипотез,
масштабная визуализацию данных,
предиктивная аналитика — методы анализа, с помощью которых можно предсказать поведение объекта.
Предиктивную аналитику, в частности, используют для:

прогнозирования продаж,
обнаружения мошенничества (например, предиктивные алгоритмы сами определяют, какие из страховых или кредитных заявок мошеннические),
маркетингового и клиентского анализов,
создания рекомендательных сервисов,
предсказания поломок и сбоев в работе оборудования.
Чаще всего большие данные используются для создания персональных предложений.

Все перечисленные способы использования относятся к так называемой внутренней монетизации данных (повышение эффективности ведения бизнеса внутри компании). Однако существует и внешнее направление монетизации. Теперь организации могут продавать свои данные и результаты их аналитики. Три процента опрошенных нами респондентов утверждают, что их компании используют этот способ монетизации.

Как и в любой другой сфере, в монетизации больших данных есть и достижения, и проблемы.

Достижение № 1. В лидирующих отраслях прибыли от внешней монетизации больших данных растут

Первопроходцы внутренней монетизации ​— цифровые платформы, банки и операторы связи. Эти индустрии первыми начали получать прибыль от внешней монетизации данных. Сейчас объем этой прибыли активно растет.

МТС успешно монетизирует данные геолокации абонентов. Например, правительство Москвы использует эти данные для планирования маршрутов транспорта, изменений в инфраструктуре и в других целях. Рекламный бизнес применяет такие данные для оптимизации показа наружной рекламы.
Теле2 помогает финансовым организациям предотвратить случаи мошенничества со стороны клиентов. Компания делает это на основе собственной аналитики больших данных своих клиентов. Например, оператор связи помогает определить благонадежность заемщика при обращении за кредитом, верифицирует его личные данные.
Аналитика «больших данных» позволила Теле2 в 2018 году заработать на 1024% больше, чем в 2017 году. МТС в 2019 году ожидает увеличения прибыли от проектов на основе больших данных на 30%.

Перед продажей компании обезличивают данные, персональная и конфиденциальная информация из них удаляется. Таким образом, клиентам компаний ничто не грозит.

Несомненно, в будущем прибыли от внешней монетизации больших данных будут расти еще активнее. Ведущая исследовательская компания в области ИТ Gartner предсказывает, что к 2020 году четверть крупных организаций будет покупать или продавать данные.

В России развитие внешней монетизации во многом будет зависеть от доработок законодательства. Сегодня в законах пока не прописано четкое определение больших данных и не описаны схемы работы с ними.

Достижение № 2. Компании реального сектора начали активно применять большие данные

Большим достижением в области внутренней монетизации стало активное развитие применения больших данных в промышленности. Еще совсем недавно реальный сектор не уделял работе с данными должного внимания. Сейчас ситуация изменилась.

Это вызвано многими факторами:

развитием интернета вещей,
высокой конкуренцией на рынке,
развитием технологий обработки и хранения данных. Среди последних таких технологий — озера данных (формат хранения больших данных) и новый класс приложений — Operational Intelligence (по аналогии с Business Intelligence) для обработки потоков данных в реальном времени.
Многие компании реального сектора активно создают цифровых двойников активов. Цифровой двойник — система взаимосвязанных данных, описывающих все аспекты реального актива. Цифровой двойник включает в себя данные о технических характеристиках актива, параметры технологических цепочек, в которые он включен, данные о фактическом состоянии и другое.

Цифровые двойники активов (АЭС, подстанций, месторождений) есть у многих организаций. Например, у «Роснефти», «Газпром нефти», «Росатома», «Россетей», «Сибура». Цифровые двойники уже сегодня позволяют решать многие практические задачи, в том числе:

предсказывать утечку газа,
оптимизировать производственные цепочки,
оптимизировать режим работы оборудования, ремонтных кампаний и многое другое.
В будущем цифровые двойники активов будут объединяться в цифровых двойников предприятия.

Фото: Максим Шеметов / ТАСС

Достижение № 3. Большие данные позволяют внедрять новые бизнес-модели и выходить на новые рынки

Многие рынки сейчас насыщены, компаниям сложно увеличивать на них свою долю. Если вы продали своему клиенту один автомобиль, то не сможете сразу же продать ему второй. Однако, владея информацией о такой покупке, вы сможете предложить ему страховку или парковочное место рядом с домом. Складывается ситуация, когда эффективнее построить свой бизнес не вокруг какого-то товара или услуги, а вокруг больших данных клиента. Те компании, которые уже научились эффективно работать с данными, строят вокруг них свой бизнес. Для этого они и меняют бизнес-модели и осваивают новые рынки.

Как банки осваивают новые рынки

Банк Хоум Кредит открыл маркетплейс,
Тинькофф Банк запустил оператора связи,
Сбербанк запустил платформу для торговли продуктами.
Построение бизнеса вокруг данных — это общемировой тренд, со временем таких примеров будет только больше.

Препятствие № 1. Низкое качество данных, нехватка Data Governance — стратегического управления данными

Стандартные вопросы повышения качества данных (дедупликация, очистка) до сих пор решены не во всех компаниях. Во многих из них хранятся «темные данные» — данные, которые по разным причинам оказываются вне аналитики. Такие данные могут быть представлены в нестандартных форматах (например, выражение лица покупателя на видеозаписи), храниться в трудно досягаемых местах (на ПК, в почте сотрудников). Из-за того что «темные данные» исключены из аналитики, результаты последней могут быть недостаточно достоверными.

О том, что для эффективного применения больших данных не хватает стратегического подхода к их управлению, говорят многие ведущие CDO (директора по данным). Выстраивание стратегического управления данными — Data Governance — сложный и долгий процесс. Он требует изменения во всей корпоративной структуре компании — в частности, выстраивания правильных бизнес-процессов, эффективной организационной структуры, новых положений и регламентов, распределения ответственности, новых ролевых моделей.

Препятствие № 2. Нехватка квалифицированных кадров

Еще одна проблема, которая мешает реализовать весь потенциал больших данных, — дефицит кадров. Организации, которые активнее всего работают с большими данными, уже взяли решение этой проблемы в свои руки. И это не только ИТ-компании, но и компании из других секторов.

ПАО «ВымпелКом» создало свою школу data scientists,
«Ростелеком» — школу инженеров по данным.
С проблемой нехватки кадров бизнес столкнулся и за рубежом. Но прогноз в этой области позитивный. Gartner предсказывает, что к 2020 году более 40% задач в области data science (наука о данных) ​будет автоматизировано. Люди при этом смогут сконцентрироваться на выполнении более творческих аналитических задач. Продуктивность методов повысится, а использовать их будет проще. Сегодняшние аналитики и другие специалисты, не связанные с ИТ, смогут самостоятельно применять данные в своей работе.

Препятствие № 3. Неточные расчеты рентабельности проектов big data

Затраты на каждый проект big data могут быть совершенно разными в зависимости от применяемых технологий, стоимости поддержки, объемов данных и стоимости специалистов. Значительно снизить расходы может помочь автоматизация процессов работы с большими данными (например, их интеграции). А вот выгода от продуктов open-source может быть перекрыта высокой стоимостью их поддержки.

Чтобы проект big data приносил прибыль, нужно тщательно подходить к расчету его рентабельности. Большие данные — это актив компании, и управлять ими нужно как активом.

Как сделать так, чтобы проект big data приносил прибыль

1. Определить ликвидность актива

Во-первых, необходимо четко определять ликвидность этого актива. Ликвидность данных — их полезность и востребованность. Данные с низкой ликвидностью не просто не приносят пользы. Они приносят убытки. Бизнес должен учиться определять данные с высокой ликвидностью и максимально повышать их качество.

2. Оценить возврат от этого актива

Необходимо точно оценить возврат от этого актива. Для этого надо использовать показатель ROA (return on asset — возврат на актив). Ориентироваться стоит на отношение общекорпоративного ROA всех других активов компании к ROA данных.

Точные расчеты рентабельности позволят российским компаниям эффективно организовать как внутреннюю, так и внешнюю монетизацию. Значение этого сложно переоценить: эффективная монетизация данных сейчас становится важнейшим конкурентным преимуществом. Так, по прогнозам исследовательской компании International Data Corporation, в 2022 году прибыль от внедрения технологий big data и business intelligence достигнет $260 млрд в год.

Автор: Павел Лихницкий, генеральный директор DIS Group

Подробнее на РБК:
https://pro.rbc.ru/news/5c98e7639a79476ab77b55a3?fbclid=IwAR0h3nK3pvoOVmE_uvQgrHyT7GXSy5Puf-7yfi8SedIcg3R3rbgAceKkDZQ

dis-group.ru

Что такое Big data простыми словами? Применение больших данных

Через 10 лет мир перейдет в новую эпоху — эпоху больших данных. Вместо виджета погоды на экране смартфона, он сам подскажет вам, что лучше одеть. За завтраком телефон покажет дорогу, по которой вы быстрее доберетесь до работы и когда нужно будет выехать.

Под влиянием Big Data изменится все, чего бы не коснулся человек. Разберемся, что это такое, а также рассмотрим реальное применение и перспективы технологии.

Навигация по материалу:

Что такое Big data?

Большие данные — технология обработки информации, которая превосходит сотни терабайт и со временем растет в геометрической прогрессии.

Такие данные настолько велики и сложны, что ни один из традиционных инструментов управления данными не может их хранить или эффективно обрабатывать. Проанализировать этот объем человек не способен. Для этого разработаны специальные алгоритмы, которые после анализа больших данных дают человеку понятные результаты.

В Big Data входят петабайты (1024 терабайта) или эксабайты (1024 петабайта) информации, из которых состоят миллиарды или триллионы записей миллионов людей и все из разных источников (Интернет, продажи, контакт-центр, социальные сети, мобильные устройства). Как правило, информация слабо структурирована и часто неполная и недоступная. 

Как работает технология Big-Data?

Пользователи социальной сети Facebook загружают фото, видео и выполняют действия каждый день на сотни терабайт. Сколько бы человек не участвовало в разработке, они не справятся с постоянным потоком информации. Чтобы дальше развивать сервис и делать сайты комфортнее — внедрять умные рекомендации контента, показывать актуальную для пользователя рекламу, сотни тысяч терабайт пропускают через алгоритм и получают структурированную и понятную информацию.

Сравнивая огромный объем информации, в нем находят взаимосвязи. Эти взаимосвязи с определенной вероятностью могут предсказать будущее. Находить и анализировать человеку помогает искусственный интеллект.

Нейросеть сканирует тысячи фотографий, видео, комментариев — те самые сотни терабайт больших данных и выдает результат: сколько довольных покупателей уходит из магазина, будет ли в ближайшие часы пробка на дороге, какие обсуждения популярны в социальной сети и многое другое.

Методы работы с большими данными:

  • Машинное обучение
  • Анализ настроений
  • Анализ социальной сети
  • Ассоциация правил обучения
  • Анализ дерева классификации
  • Генетические алгоритмы
  • Регрессионный анализ

Машинное обучение

Вы просматриваете ленту новостей, лайкаете посты в Instagram, а алгоритм изучает ваш контент и рекомендует похожий. Искусственный интеллект учится без явного программирования и сфокусирован на прогнозировании на основе известных свойств, извлеченных из наборов «обучающих данных».

Машинное обучение помогает:

  • Различать спам и не спам в электронной почте
  • Изучать пользовательские предпочтения и давать рекомендации
  • Определять лучший контент для привлечения потенциальных клиентов
  • Определять вероятность выигрыша дела и устанавливать юридические тарифы

Анализ настроений

Анализ настроений помогает:

  • Улучшать обслуживание в гостиничной сети, анализируя комментарии гостей
  • Настраивать стимулы и услуги для удовлетворения потребностей клиента
  • Определить по мнениям в социальной сети о чем думают клиенты.

Анализ социальных сетей

Анализ социальных сетей впервые использовали в телекоммуникационной отрасли. Метод  применяется социологами для анализа отношений между людьми во многих областях и коммерческой деятельности.

Этот анализ используют чтобы:

  • Увидеть, как люди из разных групп населения формируют связи с посторонними лицами  
  • Выяснить важность и влияние конкретного человека в группе
  • Найти минимальное количество прямых связей  для соединения двух людей
  • Понять социальную структуру клиентской базы

Изучение правил ассоциации

Люди, которые не покупают алкоголь, берут соки чаще, чем любители горячительных напитков?

Изучение правил ассоциации — метод обнаружения интересных взаимосвязей между переменными в больших базах данных. Впервые его использовали крупные сети супермаркетов для обнаружения интересных связей между продуктами, используя информацию из систем торговых точек супермаркетов (POS).

С помощью правил ассоциации:

  • Размещают продукты в большей близости друг к другу, чтобы увеличились продажи
  • Извлекают информацию о посетителях веб-сайтов из журналов веб-сервера
  • Анализируют биологические данные
  • Отслеживают системные журналы для обнаружения злоумышленников
  • Определяют чаще ли покупатели чая берут газированные напитки

Анализ дерева классификации

Статистическая классификация определяет категории, к которым относится новое наблюдение.

Статистическая классификация используется для:

  • Автоматического присвоения документов категориям
  • Классификации организмов по группам
  • Разработки профилей студентов, проходящих онлайн-курсы

Генетические алгоритмы

Генетические алгоритмы вдохновлены тем, как работает эволюция, то есть с помощью таких механизмов, как наследование, мутация и естественный отбор.

Генетические алгоритмы используют для:

  • Составления расписания врачей для отделений неотложной помощи в больницах 
  • Расчет оптимальных материалов для разработки экономичных автомобилей
  • Создания «искусственно творческого» контента, такого как игра слов и шутки

Регрессионный анализ

Как возраст человека влияет на тип автомобиля, который он покупает?

На базовом уровне регрессионный анализ включает в себя манипулирование некоторой независимой переменной (например, фоновой музыкой) чтобы увидеть, как она влияет на зависимую переменную (время, проведенное в магазине).

Регрессионный анализ используют для определения:

  • Уровней удовлетворенности клиентов
  • Как прогноз погоды за предыдущий день влияет на количество полученных звонков в службу поддержки
  • Как район и размер домов влияют на цену жилья

Data Mining — как собирается и обрабатывается Биг Дата

Загрузка больших данных в традиционную реляционную базу для анализа занимает много времени и денег. По этой причине появились специальные подходы для сбора и анализа информации. Для получения и последующего извлечения информацию объединяют и помещают в “озеро данных”. Оттуда программы искусственного интеллекта, используя сложные алгоритмы, ищут повторяющиеся паттерны.

Хранение и обработка происходит следующими инструментами:

  • Apache HADOOP — пакетно-ориентированная система обработки данных. Система хранит и отслеживает информацию на нескольких машинах и масштабируется до нескольких тысяч серверов.
  • HPPC — платформа с открытым исходным кодом, разработанная LexisNexis Risk Solutions. HPPC известна как суперкомпьютер Data Analytics (DAS), поддерживающая обработку данных как в пакетном режиме, так и в режиме реального времени. Система использует суперкомпьютеры и кластеры из обычных компьютеров.
  • Storm — обрабатывает информацию в реальном времени. Использует Eclipse Public License с открытым исходным кодом.

Реальное применение Big Data

Самый быстрый рост расходов на технологии больших данных происходит в банковской сфере, здравоохранении, страховании, ценных бумагах и инвестиционных услугах, а также в области телекоммуникаций. Три из этих отраслей относятся к финансовому сектору, который имеет множество полезных вариантов для анализа Big Data: обнаружение мошенничества, управление рисками и оптимизация обслуживания клиентов.

Банки и компании, выпускающие кредитные карты, используют большие данные, чтобы выявлять закономерности, которые указывают на преступную деятельность. Из-за чего некоторые аналитики считают, что большие данные могут принести пользу криптовалюте. Алгоритмы смогут выявить мошенничество и незаконную деятельность в крипто-индустрии.

Благодаря криптовалюте такой как Биткойн и Эфириум блокчейн может фактически поддерживать любой тип оцифрованной информации. Его можно использовать в области Big Data, особенно для повышения безопасности или качества информации.

Например, больница может использовать его для обеспечения безопасности, актуальности данных пациента и полного сохранения их качества. Размещая базы данных о здоровьи в блокчейн, больница обеспечивает всем своим сотрудникам доступ к единому, неизменяемому источнику информации.

Также, как люди связывают криптовалюту с волатильностью, они часто связывают большие данные со способностью просеивать большие объемы информации. Big Data поможет отслеживать тенденции. На цену влияет множество факторов и алгоритмы больших данных учтут это, а затем предоставят решение.

Перспективы использования Биг Дата

Blockchain и Big Data — две развивающиеся и взаимодополняющие друг друга технологии. С 2016 блокчейн часто обсуждается в СМИ. Это криптографически безопасная технология распределенных баз данных для хранения и передачи информации. Защита частной и конфиденциальной информации — актуальная и будущая проблема больших данных, которую способен решить блокчейн.

Почти каждая отрасль начала инвестировать в аналитику Big Data, но некоторые инвестируют больше, чем другие. По информации IDC, больше тратят на банковские услуги, дискретное производство, процессное производство и профессиональные услуги. По исследованиям Wikibon, выручка от продаж программ и услуг на мировом рынке в 2018 году составила $42 млрд, а в 2027 году преодолеет отметку в $100 млрд.

По оценкам Neimeth, блокчейн составит до 20% общего рынка больших данных к 2030 году, принося до $100 млрд. годового дохода. Это превосходит прибыль PayPal, Visa и Mastercard вместе взятые.

Аналитика Big Data будет важна для отслеживания транзакций и позволит компаниям, использующим блокчейн, выявлять скрытые схемы и выяснять с кем они взаимодействуют в блокчейне.

Рынок Big data в России

Весь мир и в том числе Россия используют технологию Big Data в банковской сфере, услугах связи и розничной торговле. Эксперты считают, что в будущем технологию будут использовать транспортная отрасль, нефтегазовая и пищевая промышленность, а также энергетика. 

Аналитики IDC признали Россию крупнейшим региональным рынком BDA. По расчетам в текущем году выручка приблизится к 1,4 миллиардам долларов и будет составлять 40% общего объема инвестиций в секторе больших данных и приложений бизнес-аналитики.

Дата публикации 22.08.2019
Поделитесь этим материалом в социальных сетях и оставьте свое мнение в комментариях ниже.


Самые последние новости криптовалютного рынка и майнинга:The following two tabs change content below.

mining-cryptocurrency.ru

кто здесь работает и как сюда попасть

Экскурс: больше data science

Наука о данных ведет свою историю с 1966 года. Именно тогда в Париже появился Комитет по данным для науки и техники при Международном научном совете. Однако, долгое время выражение «data science» можно было услышать только в узких кругах статистиков и ученых. Лишь в начале 2000-х термин стал общепризнанным в Америке и Европе, а с появлением и распространением хайпа вокруг Big Data традиционная наука о данных получила новое дыхание.

Внезапно аналитики стали нужны всем: бизнесу и государству, интернету и сельскому хозяйству. В 2011 году McKinsey подливает масла в огонь: по их предсказаниям, к 2018 году только в США потребуется больше 400 тысяч аналитиков данных. Где же их столько взять? В 2013 году университеты запускают магистратуру по data science, а бизнес-школы плодят курсы для Big Data специалистов.

В России происходит все то же самое, но чуть медленнее. На сегодняшний день количество вакансий, связанных с big data, на hh.ru переваливает за тысячу. При этом, отрасль остается новой и загадочной: большие данные притягивают специалистов и одновременно отпугивают. Сегодня будем развеивать страхи и изгонять жаждущих легких денег. Если вы до сих пор думаете, что работа с big data – это нечто, связанное со сверхспособностями и единорогами, приготовьтесь к погружению в реальность.

Big data профессии по полочкам

Добро пожаловать в отдел социальной аналитики Eastwind. Здесь наши коллеги создают и развивают платформу Social Analytics. Этот продукт помогает телеком-операторам и бизнесу собирать сырые неструктурированные данные и преобразовывать их в инсайты о клиентах. За удобными юзер интерфейсами и результатами кейсов, скрывается большой труд ребят из отдела социальной аналитики.

Заметим, что в зависимости от страны, компании и специфики бизнеса профессии подобного отдела могут называться по-разному. Некоторые (больше принято на зарубежном рынке) дробят функции big data специалистов и получают узконаправленных экспертов. Но в общем, все профессии, тесно связанные с Big Data, можно разделить на два основных направления: анализ данных и разработка.

В соответствующих рабочих группах Eastwind мы попросили рассказать: в чем суть работы аналитиков и разработчиков отдела, какие технологии они используют, с каким бэкграундом люди обычно приходят в big data и что нужно специалистам для успеха в этой индустрии.

Data scienist или аналитик big data

Суть работы:

– Человек продуцирует много фиксируемых событий. Например, у операторов это звонки и трафик, у банков – транзакции, в ритейле – посещения и покупки. Мы выявляем закономерности в этих данных, чтобы использовать их для бизнеса, – рассказывает Андрей Плющенко, руководитель группы анализа данных в Eastwind. – Работаем с сырой информационной историей. Из необработанных данных нам нужно убрать мусор и оставить то, что позволит лучше охарактеризовать людей, предсказать их поведение. Все это помогает бизнесу понять: какой товар или услуга вероятнее всего заинтересуют клиента. А также: когда это произойдет, стоит ли предоставлять ему кредит доверия и так далее. В нашей группе мы строим поведенческие модели, тестируем их и настраиваем алгоритмы machine learning – все кодим на python.

Бэкграунд и технологии:

– Обычно в анализ больших данных приходят математики. Я сам математик, –продолжает Андрей. – Также нужно разбираться в программировании, понимать, что такое big data в принципе, а главное – быть творческим человеком. Нам ведь постоянно приходится что-то придумывать, генерировать идеи, искать инсайты. Если говорить о технологиях, то для работы достаточно знать python, что-нибудь о распределенных вычислениях и устройстве кластеров данных.

– Я пришла в big data из java-разработки, – делится Ольга Анненкова, группа анализа данных Eastwind. – Просто плавно перешла из одной группы в другую, вместе со своими задачами. Сейчас сама разработка стала более аналитической. Сложность нашей работы в том, что постоянно появляются новые продукты, нам нужно очень быстро внедрять их и разбираться, как они работают, несмотря на баги. Интересно, потому что мы работаем с настоящими конфиденциальными данными и можем видеть результат своих вычислений и верность предсказаний в реальной жизни. Аналитика big data – это труд программиста, математика и исследователя в одной специальности.

Важно для успеха:

– Чтобы работать в анализе больших данных, нужно иметь скилы из разных областей, – добавляет Михаил Чернышев, группа анализа данных Eastwind. – Уметь делать визуализации, обладать фантазией и терпением. Не факт, что модель, которую ты придумаешь, сработает с первого раза.

– Самое сложное и начинается, когда тебе нужно тюнинговать созданную модель, – подтверждает Дмитрий Журавлев, группа анализа данных Eastwind. – Для создания и улучшения метрик важно с разных сторон смотреть на проблему.

– Главные компетенции рождаются при решении промышленных задач. Нельзя пройти курсы, почитать теорию, вдохновиться модой и стать успешным big data аналитиком, – объясняет Андрей Плющенко. – С сырой историей работать всегда сложнее, чем с готовыми фичами, которые дают на конкурсах. В каждой компании – свои специфические задачи, к решению которых нужно подходить индивидуально. Нужно приготовиться, что в работе с big data нет шаблона. Поэтому, после освоения базы, вам придется постоянно совершенствоваться. Но будет интересно.

Data engineer или разработчик в сфере big data

Суть работы:

– Мы занимаемся структурным обеспечением группы аналитиков. Другими словами, делаем так, чтобы им было проще работать с большими объемами данных, с кластерными и операционными системами, – рассказывает Шерзод Гапиров, руководитель группы разработки в отделе аналитики Eastwind. – В идеале, аналитики не должны углубляться в программирование. Им это не особо интересно и отвлекает от основного – построения моделей и работы с вычислениями.

– Разработчики в big data – это саппорт аналитикам, – дополняет Сергей Сычев, разработчик в отделе аналитики Eastwind. – Мы оптимизируем рутинные процессы, разрабатываем приложения для работы с данными. Решаем технические задачи, вроде шифрования информации. Так как область новая, зачастую нам приходится изобретать какие-то «костыли», писать новые скрипты и сразу вводить в работу.

Бэкграунд и технологии:

– В отдел аналитики мы берем людей из любой области разработки, — делится Шерзод Гапиров. – Важно, чтобы был хороший опыт программирования, понимание реляционных баз данных и работы систем – Linux, Hadoop. Еще хорошо бы знать языки java и scala. Если такая база есть, специфике big data мы обучаем с нуля.

– У нас есть кластер Cloudera, в его стеке – Oozie, HDFS, Spark. Во фронтенде мы используем React, – перечисляет технологии Сергей Сычев. – Но самое главное, в работе нашей группы – постоянно следить за новинками, внедрять их, быть на волне. Способность к обучению в big data разработке я бы поставил выше всего.

Важно для успеха:

– Наш человек – технарь. Тот, кто любит покрутить гаечки или разобрать технику, чтобы понять, как она работает, — говорит Шерзод Гапиров. – Чтобы преуспеть в этом, нужно просто проявлять упорство. Со стороны Big Data кажется сложной и возвышенной областью, потому что люди мало с ней знакомы. По факту, когда разберешься и вникнешь – big data разработка становится обычной инженерной работой и не отличается от любого другого программирования.

Профессии около big data

Рассказывая о специальностях отрасли, нельзя не упомянуть некоторые «вспомогательные» профессии. Это люди, которые напрямую не работают с большими данными, но тесно связаны с развитием многих аналитических платформ. Это тот случай, когда вы не математик и не технарь, но все-таки можете похвастаться, что крутитесь в сфере Big data. 😉

Дизайнер интерфейсов. Этот человек упаковывает все сложные вычисления и технологии в простую форму.Особенность создания интерфейсов аналитических платформ – большое количество параметров данных. Дизайнер делает так, чтобы пользователь по ту сторону экрана мог легко во всем разобраться и запускал собственные исследования без глубокого погружения в предметную область big data.

«Для создания интерфейсов к аналитическим платформам нужно разбираться в web-разработке, UX-дизайне и обладать чувством прекрасного, – объясняет Александр Иноземцев, руководитель группы веб-интерфейсов в Eastwind. – Нужно уметь поставить себя на место человека, который будет пользоваться интерфейсом, и сделать процесс управления максимально удобным и простым для него».

Продакт-менеджер. Этот человек продвигает аналитическую платформу в живой бизнес-среде: участвует во внедрении, развивает систему по потребностям заказчика и требованиям рынка. Он должен хорошо разбираться в продукте и быть связующим звеном между разработчиками и компанией.

«Для нашего технического отдела – я менеджер, который работает с клиентом. А клиенты часто считают меня технарем, — рассказывает Александр Павлов, менеджер продукта Eastwind Social Analytics. – Это отражает особенность профессии менеджера big data продукта: быть в равной степени погруженным в коммерческие нужды и технические возможности, понимать логику исследований данных и быть первым объективным тестировщиком UI».

Где учиться, чтобы взяли на работу

Если вы не передумали погружаться в Big Data, и готовы разбираться в теме: поищите подходящие программы на Coursera, послушайте, что рассказывают в Школе анализа данных от Яндекс и рассмотрите курсы от Open Data Science. Также сейчас ведут онлайн-курсы многие зарубежные университеты: например, введение в big data от Калифорнийского Berkeley или введение в data science от Массачусетского института технологий. Этот вариант подойдет, если ваш английский выше технического. Есть магистерские программы и в российских ВУЗах.

«Мы берем людей после таких курсов. Их большой плюс в том, что они уже понимают специфику отрасли, – говорит Андрей Плющенко, руководитель группы анализа данных в Eastwind. – На собеседовании я обычно задаю базовые вопросы по machine learning. Например, что такое классификация, регрессия и кластеризация? Или: что сделать, чтобы не переобучиться? Есть и вопросы с подвохом, но даже если человек на них не ответил – не значит, что его не возьмут. Намного важнее, чтобы специалист понимал, что сейчас он на старте, и был готов к прокачке.Почему глупо требовать большой опыт в этой области? На Урале сильная математическая и программистская школа, а вот применить свои знания ребятам, которые решили стать аналитиками данных – почти негде. Даже Яндекс сократил своих местных дата сайнтистов. Поэтому многие уезжают в Москву, более амбициозные – за рубеж. В Екатеринбурге мы – одни из немногих, у кого есть полноценный аналитический отдел».

Big data – работа «что надо»?

Мы выяснили, что в отрасли больших данных нет ничего магического и, при желании, – туда не так трудно попасть, как кажется. Потребуются лишь способности к математике, логике и программированию. А еще умение творить, видеть задачи под разным углом и понимать людей и бизнес одновременно. Ну и в идеале – нужно быть терпеливым, настойчивым, всегда готовым к новому и проходить сквозь стены. Ой, последнее – лишнее. 🙂

В общем, берем свои слова насчет «не так трудно» обратно. Уровень сложности зависит исключительно от ваших индивидуальных способностей и желаний. Примеряйте на себя профессии, проверяйте свои скилы и ищите то, что вам подходит. Нашли? Тогда спасибо за внимание и добро пожаловать в Big Data

spark.ru

8 сфер и 19 самых интересных применений технологий Big Data |DataSides

Реализация технологий Big Data в медицинской сфере позволяет врачам более тщательно изучить болезнь и выбрать эффективный курс лечения для конкретного случая. Благодаря анализу информации, медработникам становится легче предсказывать рецидивы и предпринимать превентивные меры. Как результат — более точная постановка диагноза и усовершенствованные методы лечения.

Новая методика позволила взглянуть на проблемы пациентов с другой стороны, что привело к открытию ранее неизвестных источников проблемы. Например, некоторые расы генетически более предрасположены к заболеваниям сердца, нежели представители других этнических групп. Теперь, когда пациент жалуется на определенное заболевание, врачи берут во внимание данные о представителях его расы, которые жаловались на такую же проблему. Сбор и анализ данных позволяет узнавать о больных намного больше: от предпочтений в еде и стиля жизни до генетической структуры ДНК и метаболитах клеток, тканей, органов. Так, Центр детской Геномной медицины в Канзас-Сити использует технологии анализа данных для быстрой расшифровки ДНК пациентов и анализа мутаций генетического кода, которые вызывают рак. Индивидуальный подход к каждому пациенту с учетом его ДНК поднимет эффективность лечения на качественно иной уровень.

С понимания того, как используются Большие Данные, вытекает первое и очень важное изменение в медицинской сфере. Когда пациент проходит курс лечения, больница или другое здравоохранительное учреждение может получить много значимой информации о человеке. Собранные сведения используются для прогнозирования рецидивов заболеваний с определенной степенью точности. Например, если пациент перенес инсульт, врачи изучают сведения о времени нарушения мозгового кровообращения, анализируют промежуточный период между предыдущими прецедентами (в случае возникновения таковых), обращая особое внимание на стрессовые ситуации и тяжелые физические нагрузки в жизни больного. На основании этих данных, больницы выдают пациенту четкий план действий, чтобы предотвратить возможность инсульта в будущем.

Свою роль играют и носимые устройства, которые помогают выявлять проблемы со здоровьем, даже если у человека нет явных симптомов той или иной болезни. Вместо того чтобы оценивать состояние пациента путем длительного курса обследований, врач может делать выводы на основании собранной фитнес-трекером или «умными» часами информации.

Один из последних примеров — случай в Лурдском медицинском центре Богоматери в Нью-Джерси. В то время как пациент проходил обследование из-за нового приступа судороги, вызванного пропущенным приемом лекарств, врачи обнаружили, что мужчина имеет куда более серьезную проблему со здоровьем. Этой проблемой оказалась фибрилляция предсердий. Диагноз удалось поставить благодаря тому, что сотрудники отделения получили доступ к телефону пациента, а именно к приложению, сопряженному с его фитнес-трекером. Данные с приложения оказались ключевым фактором в определении диагноза, ведь на момент обследования у мужчины никаких сердечных отклонений обнаружено не было.

Это лишь один из немногих случаев, который показывает, почему использование Больших Данных в медицинской сфере сегодня играет столь значимую роль.

ru.datasides.com

BIG DATA 2018: от больших данных — к умному бизнесу

Эксперты в области больших данных обсудили, как извлечь из данных пользу и получить результаты, которые сделают бизнес умнее.

Как BIG превратить в SMART – этот вопрос в отношении больших данных стал ключевым в ходе выступлений, круглых столов и дискуссий VII Всероссийского форума BIG DATA 2018, организованного в конце марта издательством «Открытые системы». Около 400 его участников обменялись свежими идеями и опытом реализации проектов в области больших данных, аналитики, искусственного интеллекта и машинного обучения.

В целом участники соглашались, что роль информации и решений, получаемых на основе больших данных, в ближайшие годы будет стремительно расти. Вместе с тем, выступления и дискуссии форума выявили множество расхождений во взглядах не только на методы и инструменты работы с большими данными, но и на принципиально важные аспекты, лежащие в основе этих методов и подходов.

Татьяна Матвеева: «Мы можем строить интересную, разноплановую аналитику»

В частности, среди экспертов и аналитиков сейчас нет единого мнения о характере изменений в экономике и бизнесе и, как следствие, представления о том, как повысить эффективность использования больших данных. Так, Алексей Минин, директор Института прикладного анализа данных Deloitte СНГ, обратил внимание гостей форума на происходящее в последние годы расщепление экономики на цифровую и экспоненциальную и, вероятно, их параллельное сосуществование в обозримой перспективе. С его точки зрения, цифровая экономика охватывает все то, что может быть подвержено дематериализации, то есть оцифровано, и оперирует виртуальными товарами – не только цифровыми сервисами, но и образами материального мира. По сути, это экономика глобальных и региональных электронных торговых площадок (маркетплейсов).

В свою очередь, экспоненциальная экономика, согласно представлениям Deloitte, охватывает материальные объекты физического мира и прекрасно уживается на уровне экономик отдельных стран. Использование в ней новейших технологий (искусственного интеллекта, блокчейна и других) способно обеспечить экспоненциальный рост капитализации компаний за счет появления новых бизнес-моделей, повышения эффективности работы в рамках прежних, создания новых товаров и услуг и пр. При этом основными сдерживающими факторами конкуренции становятся не пространство и время, а риск и скорость. В этих условиях растет неуверенность руководителей при принятии решений, и как следствие, увеличивается спрос на анализ больших данных, в первую очередь о клиентах. Соответственно, растет ценность таких данных.

Игорь Агамирзян, вице-президент НИУ «Высшая школа экономики», уверен: физическая и цифровая экономика нераздельны, а потому их нельзя рассматривать по отдельности (читайте также интервью с ним). Наибольшее развитие цифровая экономика получает там, где цифровая среда начинает определять поведение физической среды, а потому надо особенно пристальное внимание обратить на киберфизические системы (по сути, системы Интернета вещей), которые генерируют большие объемы и потоки данных (в том числе телеметрических) в реальном времени – именно они в скором времени будут иметь наибольшую ценность.

«Маркетплейсы — ничтожно малая часть цифровой экономики. Большая ее часть — это киберфизические системы», — отметил Агамирзян.

Он обратил внимание на любопытную деталь: из всего объема телеметрии, полученной в ходе освоения космического пространства, люди успели «посмотреть» менее 1%, и вряд ли уже когда-нибудь «посмотрят». Отсюда вывод: необходимо научиться «на лету» выявлять фрагменты данных («кадры»), в которых отражена некоторая полезная информация, и затем обрабатывать только их, а остальные данные отбрасывать. Правда, сделать это непросто: как правило, датчики фиксируют не первичные параметры значимых событий, а их косвенные признаки, поэтому надо уметь определять события по косвенным признакам, выявляя сложные взаимосвязи между ними в реальном времени, причем, скорее всего, не в дата-центрах, а вблизи объектов управления – на краю сетей (edge computing), чтобы минимизировать задержку между сигналами от датчиков и управляющими воздействиями на объекты.

Все больше пользы от больших данных

Алексей Минин: «Инновации, как правило, начинаются с хайпа»

Пока эксперты и аналитики спорят, проекты в области больших данных набирают обороты. Обладателем одного из самых больших активов финансовых данных является ФНС России. По словам Татьяны Матвеевой, начальника управления информационных технологий ФНС, новые технологии не только бросают вызов, но и открывают перед налоговыми органами новые возможности. Кроме того, в ФНС считают необходимым не оставаться в стороне от ключевых технологических тенденций, стараясь найти в них пользу для налоговых органов. В частности, большое внимание уделяется повышению качества данных, а одним из ключевых условий этого в ФНС считают электронный документооборот.

Матвеева представила некоторые результаты использования больших данных в ФНС: российским налоговикам удалось более чем в 10 раз сократить разрывы по НДС, минимизировав тем самым мошенничество в этой сфере; легальный ввод меховых изделий в оборот увеличился в 1,7 раза, при этом оборот этих изделий вырос в 7 раз, а количество участников рынка – в 3,5 раза. С переходом на онлайн-кассы все больше данных обрабатывается в реальном времени: в настоящий момент с 1,7 млн онлайн-касс ежедневно приходит 120 млн чеков. И все больше возможностей появляется для быстрого выявления мошеннических операций и реагирования на них, на дожидаясь проверок.

«Мы стремимся создать комфортную среду для всех участников налогового взаимодействия, которая обеспечит доверие налогоплательщиков к госорганам», — подчеркнула Матвеева.

Задачи с использованием больших данных на производстве решают Новолипецкий металлургический комбинат, СИБУР и группа компаний «Русагро». Так, по словам Анджея Аршавского, директора центра анализа данных и матмоделирования НЛМК, в холдинге выстраивается конвейер по реализации проектов больших данных и искусственного интеллекта, начиная от идеи и постановки задачи и заканчивая созданием систем, реально работающих в масштабе предприятия. В числе примеров задач, решаемых подобным образом, — оптимизация электродуговой печи, используемой для плавки металлолома, оптимизация расхода газов по котлам на принадлежащей холдингу ТЭЦ в Липецке, прогнозирование ремонтов фурм в металлургических печах, позволяющее избежать их внеплановых простоев.

«Мы выбираем для реализации в первую очередь те проекты, для которых есть данные и при этом не требуются очень замысловатые методы решения вроде машинного обучения», — отметил Аршавский.

Также он обратил внимание на большой разрыв в ресурсоемкости проектов в больших данных на производстве: промышленная реализация требует на порядки больше ресурсов, чем пилотные проекты.

Игорь Агамирзян: «Маркетплейсы — ничтожно малая часть цифровой экономики. Большая ее часть — это киберфизические системы»

Как рассказал Владимир Чернаткин, куратор проектов больших данных и Интернета вещей в СИБУРе, на химических предприятиях его компании решаются как оптимизационные задачи, позволяющие снизить перерасход катализаторов и минимизировать внеплановые остановки оборудования, так и задачи по управлению качеством, позволяющие повысить производительность линий по производству пленки из полипропиленовых гранул. С деталями проекта по оптимизации расхода катализаторов при синтезе окиси этилена в СИБУРе познакомила Ольга Плосская, руководитель проектов отдела анализа данных компании Visiology. Особенностями процесса являются регулярная смена нагрузки, недостаточные возможности для измерений, а также непостоянство точки оптимума, которая имеет свойство со временем смещаться. Применение технологий машинного обучения позволило добиться улучшений на 0,1%. В перспективе предполагается повысить этот показатель в два раза.

По словам Тани Милек, менеджера по методологии и унификации «Русагро», в ее компании производственные данные стекаются из самых разных источников: от датчиков и систем Интернета вещей, дронов, обрабатываются и снимки из космоса, при этом основное внимание уделяется интерпретации данных и прогнозированию на их основе. В числе задач, в которых использование больших данных себя окупит, Милек назвала мониторинг сельскохозяйственных посевов, темпов уборки урожая, выявление закономерностей между количеством внесенных удобрений и развитием посевов, а также оптимизацию использования техники на полях. Также актуальны разработка рекомендаций для агрономов на основе данных дронов и прогнозирование вегетации зерновых на базе геоданных и показателей датчиков, развитие биотехнологий в животноводстве, соблюдение требований по защите окружающей среды и, кроме того, мониторинг и прогноз всего, что касается роста животных, их лечения, кормления и подбора кормов.

Владимир Соловьев, руководитель департамента анализа данных, принятия решений и финансовых технологий Финансового университета при Правительстве РФ, обнаружил множество больших данных, взяв курс на создание «умного» университета. Например, мониторинг в реальном времени расположенных в помещениях датчиков помогает обеспечить комфортные условия освещенности, температуры и влажности, а заодно оптимизировать расходы ресурсов на их поддержание. Однако самые интересные на сегодняшний день эксперименты проводятся в аудиториях, где идут практические занятия: видеопотоки с видеокамер отправляются в облако Microsoft, где с помощью сервисов Azure IoT Hub и Stream Analytics проводится распознавание лиц студентов и определяется их эмоциональное состояние. Результатами анализа становятся оценки их вовлеченности в учебный процесс, при этом правдоподобность оценок сейчас составляет около 80%. Оценки позволяют отследить динамику вовлеченности по различным срезам: образовательным программам, преподавателям, группам и отдельным студентам – эта информация обеспечивает обширные возможности для принятия решений по улучшению учебного процесса.

Платформы и методики

Евгений Степанов: «Высокая производительность современной аналитической платформы достигается благодаря поколоночному хранению данных»

Естественно, успешная реализация проектов на основе больших данных едва ли возможна без использования развитых платформ – этому направлению на форуме также уделялось много внимания. Так, Никита Успенский, руководитель направления Big Data компании Oracle в России, настоятельно рекомендовал решать задачи больших данных с применением специально разработанных для этих целей программно-аппаратных комплексов. Анна Румянцева, исследователь данных (точнее, Data Scientist) компании Hitachi Vantara, обратила внимание на универсальность платформы Pentaho, пригодной для решения широкого круга задач – от интеграционных и до прикладных и связанных с получением отчетности. Евгений Степанов, руководитель направления Big Data в России компании Micro Focus, обратил особое внимание на высокую производительность аналитической платформы Vertica, достигаемой благодаря поколоночному хранению данных. Сергей Золотарев, управляющий партнер компании Arenadata, представил созданную на основе систем с открытым кодом корпоративную платформу данных Arenadata Unified Data Platform, включающую продукты-модули для работы с Hadoop, аналитическую СУБД с обработкой данных в оперативной памяти, распределенную СУБД, использующую массивно-параллельные вычисления, и систему для централизованного управления и координации работы всех перечисленных компонентов. Игорь Катков, директор по партнерам и развитию бизнеса компании Pure Storage в России, СНГ и странах Балтии, рассказал о возможностях аналитической обработки больших данных, которые предоставляет построенная на базе флеш-накопителей платформа хранения FlashBlade, сочетающая высокую производительность, масштабируемость и надежность с умеренной совокупной стоимостью владения.

Важное место в ходе форума занимали выступления и дискуссии, имевшие методологическую направленность. Так, Виталий Чугунов, руководитель отдела специального ПО компании «ЕС-лизинг», отметил три ключевых вопроса, которые необходимо решать в ходе цифровой трансформации: круг потребителей цифровых преобразований (кому они предназначаются), как обеспечить управление трансформационными процессами и заодно всем комплексом цифровых, в том числе аналитических технологий, которые создаются в ходе подобных проектов; и наконец, нужно решить широкий круг вопросов, связанных с данными.

Александр Азаров, старший вице-президент по разработке ПО компании WaveAccess, представил общую «дорожную карту» выполнения проектов по машинному обучению. Согласно его рекомендациям, на первом этапе следует максимально уточнить бизнес-задачу, которую планируется решить, определить спектр данных и источников, которые для этого потребуются, а также провести сбор и проверку данных. Вторым этапом должна стать разработка прототипа – для этого, в частности, понадобится выбрать алгоритм решения задачи и инструментарий для его реализации. На третьем этапе следует определить модель окупаемости, а заодно оценить, во что обойдутся ошибочно выявленные ситуации. Наконец, на четвертом нужно сосредоточиться на разработке решения, при этом особое внимание обратить на производительность, заранее определив, какие вычислительные мощности и в каком количестве понадобятся. Также заранее надо обсудить способы интеграции других систем с создаваемой системой машинного обучения.

Александр Тарасов: «Ответственность за корпоративное управление данными в целом должна лежать на директоре по данным»

Александр Тарасов, управляющий партнер компании DIS Group, призвал всех взглянуть на данные как на актив, способный приносить прибыль. Но чтобы этого добиться, им необходимо управлять, причем не только на уровне технологических комплексов, но и бизнес-процессов, регламентов и пр. Это необходимо, поскольку цифровые преобразования несут с собой не только новые технологии, но и новые бизнес-модели, роли, процессы, организационные структуры. Корпоративное управление данными призвано решить множество проблем, связанных с ними, в том числе низкого качества данных, отсутствия единой записи информации о клиентах, активах и пр., непрозрачности данных в отчетах, сложной интеграции данных, отсутствия ответственности за ввод данных и пр. Ответственность за корпоративное управление данными в целом должна лежать на директоре по данным (Chief Data Officer) – этот руководитель призван координировать все, что касается стратегии данных, связанных с ними операционных процессов и технологий.

Обсуждение функций и роли директора по данным продолжилось в ходе пленарной дискуссии «Chief Data Officer – в авангарде цифровой трансформации?», модератором которой выступил Сергей Золотарев из компании Arenadata. Насущные вопросы розничной и интернет-торговли обсудили участники круглого стола «Цифровизация ретейла», который координировал Евгений Степанов из компании Micro Focus. Разработчиков и архитекторов объединила дискуссия «DataOps – Agile-подходы к работе с данными», которую провел Андрей Николаенко, системный архитектор компании IBS. Кроме того, Анна Румянцева из Hitachi Vantara в ходе мастер-класса представила свои рекомендации по внедрению машинного обучения в бизнес.

www.computerworld.ru

большие возможности или большой обман / 1cloud.ru corporate blog / Habr

Мы в 1cloud часто рассказываем о технологиях, например, недавно мы писали о машинном обучении и all-flash-массивах хранения данных. Сегодня мы решили поговорить о Big Data. Чаще всего основным определением больших данных считают известные «3V» (Volume, Velocity и Variety), которые ввел аналитик Gartner Дуг Лейни (Doug Laney) в 2001 году.

При этом иногда самым важным считают именно объем данных, что отчасти обусловлено самим названием. Поэтому многие задумываются только о том, данные какого размера можно считать большими. В этой статье мы решили выяснить, что на самом деле важно в больших данных помимо размера, как они появились, почему их критикуют и в каких сферах они успешно применяются.

/ Flickr / Joe Hall / CC-BY

Если говорить про размер Big Data, то, например, Дэвид Кантер (David Kanter), президент Real World Technologies, считает, что большими данные можно назвать, если они не помещаются в памяти сервера и весят больше 3 терабайт. Однако официальное определение Gartner намного объемнее и включает не только характеристики объема, скорости и разнообразия форматов. Большие данные определяются и как информационные ресурсы, которые требуют экономически эффективных и инновационных методов обработки для более глубокого понимания, принятия продуманных решений и автоматизации технологических процессов.

Поэтому аналитик Gartner Светлана Сикьюлар (Svetlana Sicular) призывает принимать во внимание все определение в целом, а не зацикливаться только на части с тремя “V”. Кстати, со временем число этих “V” выросло, и сегодня к характеристикам больших данных также относят Veracity, Validity, Volatility и Variability (достоверность, срок действия, волатильность и изменчивость).

Минутка истории


Но история больших данных начинается гораздо раньше. По версии одного из авторов Forbes, отправной точкой можно считать 1944 год, когда американский библиотекарь Фремонт Райдер (Fremont Rider) опубликовал свою работу The Scholar and the Future of the Research Library. Там он отметил, что фонды университетских библиотек в Америке увеличиваются в размерах в два раза каждые 16 лет и к 2040 библиотека Йельского университета будет содержать около 200 миллионов книг, для хранения которых понадобится почти 10 километров полок.

Согласно другому мнению, осознание проблемы слишком большого количества данных пришло раньше, еще в 1880 году в той же Америке, когда обработка информации и представление данных переписи населения в таблице заняло 8 лет. При этом по прогнозам обработка данных переписи 1890 года заняла бы еще больше времени, и результаты не были бы готовы даже до проведения новой переписи. Тогда проблему решила табулирующая машина, изобретенная Германом Холлеритом (Herman Hollerith) в 1881 году.

Сам термин Big Data был впервые (по данным электронной библиотеки Association for Computing Machinery) введен в 1997 году Майклом Коксом (Michael Cox) и Дэвидом Эллсвортом (David Ellsworth) на 8-й конференции IEEE по визуализации. Они назвали проблемой больших данных нехватку емкости основной памяти, локального и удаленного диска для выполнения виртуализации. А в 1998 году руководитель исследовательских работ в SGI Джон Мэши (John R. Mashey) на конференции USENIX использовал термин Big Data в его современном виде.

И хотя проблема хранения большого объема данных осознавалась давно и усилилась после появления интернета, переломным моментом стал 2003 год, за который было создано информации больше чем за все предыдущее время. Примерно в это же время выходит публикация Google File System о вычислительной концепции MapReduce, которая легла в основу Hadoop. Над этим инструментом в течении нескольких лет работал Дуг Каттинг (Doug Cutting) в рамках проекта Nutch, а в 2006 году Каттинг присоединился к Yahoo и Hadoop стал отдельным полноценным решением.

Можно сказать, что большие данные сделали возможным создание поисковых систем в том виде, в котором они существуют сейчас. Подробнее об этом можно почитать в статье Роберта Кринджли (Robert X. Cringely) или ее переводе на Хабре. Тогда большие данные действительно перевернули индустрию, позволив быстро выполнять поиск нужных страниц. Еще одна важная точка в истории Big Data — 2008 год, когда в журнале Nature большим данным дали современное определение как набору специальных методов и инструментов для обработки огромных объемов информации и представления её в виде, понятном пользователю.

Большие данные или большой обман?


В современном восприятии и понимании больших данных существует большая проблема — в связи с ростом популярности технологии она представляется панацеей и решением, которое должна внедрять любая уважающая себя компания. Кроме того, для многих людей большие данные являются синонимом Hadoop, а это наводит некоторые компании на мысль, что если обрабатывать данные с помощью этого инструмента, то они сразу становятся большими.

На самом деле выбор инструмента зависит не столько от размера данных (хотя и это может быть важно), сколько от конкретной задачи. При этом правильная постановка задачи может показать, что совсем необязательно прибегать к помощи больших данных и что простой анализ может оказаться намного эффективнее по временным и денежным затратам. Поэтому многие эксперты «ругают» феномен Big Data за то внимание, которое он к себе привлекает, вынуждая многие компании идти на поводу трендов и применять технологии, которые нужны далеко не всем.

Еще одно ожидание связано с тем, что большие данные — ключ к абсолютно всем знаниям. Но дело в том, что для извлечения информации нужно уметь составлять правильные запросы. Эксперт в области больших данных Бернард Мар (Bernard Marr) считает, что большинство проектов по использованию Big Data оканчиваются неудачей именно из-за того, что компании не могут сформулировать точную цель. Сам сбор данных сегодня ничего не значит, их хранение стало дешевле, чем уничтожение.

Некоторые даже считают, что Big Data на самом деле можно назвать большой ошибкой или большим обманом. Шквал критики обрушился на большие данные после нашумевшего провала Google Flu Trends, когда проект пропустил эпидемию 2013 года и исказил информацию о ней на 140%. Тогда ученые из Северо-Восточного, Гарвардского и Хьюстонского университетов раскритиковали инструмент, выявив, что за последние два года работы анализ чаще показывал неправильные результаты. Одна из причин — изменение самого поискового инструмента Google, что привело к сбору разрозненных данных.

Часто в результате анализа больших данных выявляются связи между событиями, которые на самом деле не могли никак повлиять друг на друга. Число ложных корреляций увеличивается с количеством анализируемых данных, и слишком много данных бывает так же плохо, как и слишком мало. Это не значит, что большие данные не работают, просто помимо компьютерного анализа необходимо привлекать к работе ученых и специалистов в определенной узкой области знаний, которые смогут разобраться, какие именно данные и результаты анализа представляют практическую ценность и могут использоваться для предсказания чего-либо.

Big Data спешит на помощь


Определенные проблемы существуют почти в любой сфере: неполные данные или их недостаток, отсутствие единого стандарта записи, неточность имеющейся информации. Но несмотря на это уже сейчас есть много успешных проектов, которые действительно работают. О некоторых кейсах использования Big Data мы уже рассказывали в этой статье.

На сегодняшний день существует несколько крупных проектов, цель которых — сделать ситуацию на дорогах безопаснее. Например, Tennessee Highway Patrol совместно с IBM разработало решение прогнозирования аварийных ситуаций, которое использует данные о предыдущих авариях, арестах водителей, находящихся в алкогольном или наркотическом опьянении, и данных о событиях. А в штате Кентукки внедрили аналитическую систему, основанную на Hadoop, которая использует данные с датчиков дорожного движения, записи в социальных сетях и навигационного приложения Google Waze, что помогает местной администрации оптимизировать затраты на уборку снега и более рационально использовать средства против наледи.

Эксперты Deloitte Centre уверены, что уже к 2020 году большие данные полностью изменят сферу медицины: пациенты будут знать о своем здоровье практически все благодаря умным устройствам, собирающим различную информацию, и будут участвовать в выборе лучшего возможного лечения, а исследования, проводимые фармацевтическими компаниями, выйдут на совсем другой уровень. С помощью больших данных и машинного обучения можно создать обучающуюся систему здравоохранения, которая на основе данных электронных медицинских карт и результатов лечения сможет прогнозировать реакцию конкретного пациента на лучевую терапию.

Существует и успешный опыт применения больших данных в сфере HR. Например, компания Xerox смогла снизить текучесть кадров на 20%, благодаря Big Data. Анализ данных показал, что люди без опыта, с высокой активностью в социальных сетях и с большим творческим потенциалом остаются на одном месте работы значительно дольше. Такие кейсы дают повод экспертам считать, что большие данные могут применяться для создания бренда работодателя, отбора кандидатов, составления вопросов для собеседования, выявления талантливых способностей у работников и выбора сотрудников для продвижения.

Большие данные используются и в России, например, Яндекс запустил сервис для предсказания погоды, для которого используются данные с метеостанций, радаров и спутников. При этом в планах было даже использование показателей встроенных в смартфоны барометров для повышения точности прогнозов. Кроме того, большими данными занимаются многие банки и большая тройка операторов мобильной связи. Изначально они использовали решения только для внутренних целей, но теперь, например, Мегафон сотрудничает с правительством Москвы и РЖД. Подробнее о кейсе Вымпелком (Билайн) можно почитать на Хабре.

Многие компании осознавали потенциал обработки данных. Но настоящий переход к большим данным связан с тем, как вся эта информация может быть использована во благо для бизнеса. Рубен Сигала (Ruben Sigala), глава аналитического отдела Caesars Entertainment, в своем интервью McKinsey говорит о том, что основная сложность в работе с большими данными — подобрать правильный инструмент.

Несмотря на то, что осознание проблемы пришло давно, и инструменты существуют и совершенствуются на протяжении многих лет, поиск идеального решения сегодня продолжается и может быть связан также с поиском кадров, от которых в гораздо большей степени могут зависеть результаты анализа больших данных.

P.S. О чем еще мы пишем в блоге IaaS-провайдера 1cloud:

habr.com

Кто, как и зачем собирается регулировать Big Data в России? / Habr

Сегодня утром получил очередное PR-письмо с таким очередным предложением:
Готовы предоставить комментарий с анализом и прогнозом по законопроекту о регулировании Big Data будет, который будет готов к концу 2017 года.

Тема («регулирование Big Data») меня сразу заинтересовала (я был у ее истоков ), и я спросил в ответ: «О каком именно законопроекте спич?»

«Вот об этом, ria.ru/technology/20170919/1505085765.html», — оперативно ответила мой контрагент по переписке:

Медиа-Коммуникационный союз (МКС) к концу 2017 года представит законопроект, в том числе регулирующий использование «больших» пользовательских данных (Big Data), рассказал РИА Новости глава Роскомнадзора Александр Жаров

Дальнейшее изучение этой вопроса в общении с несколькими потенциальными знатоками вопрос и в публичных источниках в Интернете позволило выяснить следующее.

1. Кроме данной публикации кто ничего о такой инициативе не знает. Никто не видел законопроекта или хотя бы его черновика. Так что тут вообще не очень понятно: как можно комментировать то, чего нет.

2. По-видимому, у кого-то есть желание сделать очередной закон по очередному ИТ-регулированию, но пока все это, скорее всего, носит характер предварительного зондирования общественному мнения (забрасывается «удочка» и отслеживается общественная реакция). Собственно, это хорошо видно из новости РИА – такой авторитет как глава Роскомнадзора тоже знает об инициативе лишь на уровне частной приватной информации, за достоверность которой никто не отвечает (это видно по его словам » насколько я знаю»).

3. При этом новость РИА трудно назвать новостью. Дело в том, что о подобной идее по созданию «Закона о Big Data» говорили, и в начале июне этого года, и даже осенью прошлого, причем год назад тот же г-н Жаров говорил о вопросе, почти как об уже решенном, сказав тогда (как и сейчас), что законопроект будет готов к концу года (но в тот раз говорилось о конце 2016 года).

Короче говоря, из всей этой последовательность новостных слухов понятно только одно: процесс выработки все новых требований по госрегулированию информационной сферы продолжается, хотя о том, что и зачем авторы очередных инициатив хотя записать в законодательные требования на этот раз, пока остается загадкой.

И вот тут я хочу вернуться к истоку темы «регулирования Big Data».

Дело в том, что еще в мае 2015 года (более двух лет назад!) именно этот вопрос обсуждался в Аналитическом центре при Правительстве России в формате круглого стола: «Нужно ли законодательное регулирование в сфере больших данных». Общим впечатлением от той встречи была какая-то искусственность, надуманность самой темы. Ведь для решения проблемы, нужно сначала сформулировать (или показать) саму проблему, а тут все выглядело так, что кому-то очень хочется что-то порешать (в данном случае – «порегулировать»), и нужно было придумать исходную проблему.

Этот вопрос – «чем вызвана сама повестка дня?» – был задан тогда организаторам, на что они дали ответ – «Правительство попросило нас изучить вопрос».

В целом тогда результатом обсуждения был вывод о том, что законодательное регулирования Big Data не нужно. Что нет проблем, которые нужно решать с помощью такого регулирования:

одним из итогов собрания, зафиксированных в его протоколе, стал довольно длинный список предложений, как наше государство может использовать большие данные на благо общественного развития. Проблем же собственно больших данных с точки зрения необходимости их нормативного регулирования выявлено не было.

Да, конечно, за два года (с того экспертного обсуждения) многое могло произойти. «Все течет, все изменяет…» Вполне возможно, теперь обнаружились проблемы.

Но хорошо бы узнать – какие?

habr.com

Leave a Reply