Направление big data: Какое направление Big Data выбрать и какие перспективы у новичков: объясняет эксперт

Содержание

Какое направление Big Data выбрать и какие перспективы у новичков: объясняет эксперт

Сегодня мы будем беседовать с Артёмом Гогиным — экспертом из мира Big Data. Артём имеет большой опыт работы с большими данными, в том числе построения и развития хранилищ данных в таких компаниях, как «Сбербанк» и «Мегафон». Также он является преподавателем и автором нескольких курсов по технологиям больших данных на портале GeekBrains.

Мы поговорим о том, какие есть направления в Big Data, какие задачи решают различные специалисты и как выбрать наиболее подходящее направление.

Карьера в Big Data – нужны ли новички

– Стоит ли сейчас начинать карьеру в больших данных? Насколько это востребованное направление?

Сегодня Big Data занимается всё больше и больше компаний. Могу выделить две причины этого:

  1. Создать большой объём данных не составляет труда. Даже если у компании нет значительного количества клиентов или операций, всегда можно увеличить детализацию данных. Например, сохранять и анализировать каждое движение мышкой пользователей сайта.
  2. Аналитика больших данных приносит свои плоды, конкурировать почти на любом рынке без такого подхода становится всё труднее.

Раз большими данными занимаются все, нужны и специалисты, которые будут с ними работать. Задач, возможностей и платформ для разработки и применения проектов Big Data становится только больше. Значит и специалисты по работе с большими данными становятся всё более востребованными.

– Растущее число возможностей касается только опытных специалистов или  найдутся задачи и для новичков?

Есть множество задач, которые требуют серьёзной экспертизы и являются очень узконаправленными. Существуют проекты, на которых работают только опытные специалисты. Но для новичков работы тоже предостаточно, потому что большинство задач являются типовыми (но не менее трудоёмкими). Например, нужно найти правильный join двух таблиц, добавить несколько колонок в таблицу или поменять тип колонок в таблицах.

Такие задачи возникают довольно часто и не требуют большой экспертизы. Зато могут потребовать некоторое время на согласование изменений в продакшне и на приёмку работы. Некоторые же задачи требуют экспертизы только во время составления плана. Дальше их можно передать новичку, предоставив ему инструкцию и пояснив основные особенности используемой системы.

Какие есть направления Big Data и что делают разные специалисты

– Какого рода задачи решают специалисты больших данных?

Если говорить именно о Big Data, то все задачи можно разделить на 3 направления:

  • аналитика данных,
  • разработка приложений для обработки больших данных,
  • построение моделей машинного обучения на основе подготовленных данных.

Проекты обычно начинаются с внутреннего или внешнего заказчика – поступает запрос от бизнес-подразделения с более или менее оформленной потребностью. Например, необходимо уменьшить отток клиентов или подобрать самый подходящий тариф для каждого клиента, или вообще понять, как мы можем автоматически управлять лояльностью.

Как только запрос от бизнес-подразделения получен, начинается аналитика. Нужно ответить на следующие вопросы:

  • На основе каких данных должна решаться поставленная задача?
  • Как получить доступ к этим данным?
  • Консистентны ли эти данные?
  • Какой результат мы должны получить в итоге?
  • Имеется ли техническая возможность подобной реализации?
  • Предложенное решение точно удовлетворит потребности заказчика?

На все эти вопросы отвечает дата-аналитик. Основные его инструменты – почта, общение и ручные запросы к базам данных. Ручные запросы —  это те, которые не ставятся в продакшн на регулярный запуск. Работая в тесной связи с бизнес-подразделениями, дата-аналитик является связующим звеном между лицами, принимающими решения, и техническими исполнителями любой бизнес-идеи в Big Data.

– С аналитикой данных разобрались, следующее направление — разработка приложений для обработки больших данных. Кто этим занимается и какие задачи решает?

В паре с дата-аналитиком зачастую работает дата-инженер. Это второе направление Big Data. Дата-инженеров ещё называют разработчиками больших данных.

Часто их задача состоит в том, чтобы поставить некую бизнес-логику на продакшн-рельсы. Т.е. настроить трансформацию или интеграцию данных так, чтобы всё выполнялось регулярно, не создавая проблем и потерь данных. На этапе получения задачи дата-инженеры зачастую работают с дата-аналитиками. Дата-аналитики транслируют бизнес-логику разработчику, оформляя для него ТЗ и вводя разработчика в бизнес-контекст создаваемой функциональности

В целом набор задач дата-инженера можно определить так: написать приложение или скрипт, который будет работать как часы без участия человека на протяжении долгого времени. Такие приложения могут выполнять следующие функции:

  • загружать и архивировать данные для хранения и последующего анализа;
  • выполнять расчёт отчётности;
  • трансформировать данные технических логов в наглядную, структурированную статистику;
  • группировать и фильтровать данные, оптимизируя их для чтения.

Основной упор в работе дата-инженеров приходится на технические особенности баз данных, оптимизацию используемых фреймворков и архитектуру потоков данных.

Использование машинного обучения и роль дата-сайентистов

– Собираем команду: дата-аналитик и дата инженер. Один разбирается, что нужно сделать, другой знает, как это сделать. Кто занимается третьим направлением — построением моделей машинного обучения на основе подготовленных данных?

Третья группа специалистов – дата-сайентисты, которые занимаются углубленным изучением данных и применяют в работе машинное обучение. Они также могут работать в команде с дата-аналитиком, а могут быть самостоятельными единицами и брать на себя обязанности по взаимодействию с бизнес-подразделением.

Также дата-сайентисты могут работать в команде с дата-инженерами. Например, получать от них подготовленные для анализа данные или передавать им алгоритмы исследования данных для оптимизации кода с целью постановки расчёта модели машинного обучения на регулярное расписание.

Дата-сайентисты фокусируются на детальном изучении данных с точки зрения статистики и корреляций. Такие подходы помогают управлять бизнес-процессами, где возможно найти зависимость в данных. Классические задачи дата-сайентистов —  предсказание целевого показателя (прибыль, поведение, конверсия, выбранный тариф и т.д.), кластеризация (группировка данных в неизвестные категории) и классификация (разделение данных на заранее определённые группы).

– Роль дата-сайентистов для многих всё равно остается туманной. Как именно устроены проекты с применением машинного обучения?

Чтобы лучше понять работу дата-сайентиста, можно представить следующую картину. Мы работаем в банке и хотим выдавать кредиты только тем людям, которые эти кредиты нам вернут. Для этого нам нужно как-то предсказывать, вернёт клиент кредит или нет. Предсказать мы это должны ещё до того, как деньги выданы, имея в распоряжении ограниченную информацию о клиенте.

Чтобы сделать такое предсказание, нам необходимо иметь исторические данные по прошлым кредитам других клиентов, про которых мы знали то же, что знаем сейчас про будущего клиента. Например, его возраст, средний доход, количество детей и, предположим, список домашних животных.

Пример работы трёх направлений Big Data

Как только мы определились со списком известных признаков клиента, модель машинного обучения способна выявить зависимости между этими признаками и целевым показателем – вернул человек кредит или нет. В нашем вымышленном случае мы можем представить, что все наши прошлые клиенты, у которых был щенок в списке домашних животных, в итоге вернули кредит вовремя, а те клиенты, у которых не было щенка, всегда уклонялись от выплат и не выплачивали кредит.

В данном случае модель машинного обучения, обучившись на таких исторических данных, создаст для себя некое правило, по которому владельцы щенков будут самыми перспективными клиентами. Используя такую модель для прогнозирования возврата кредита, достаточно узнать у клиента его список домашних животных. Зная эту характеристику, модель сможет одобрить или отклонить заявку на кредит.

Именно так и рассматриваются заявки на кредиты во всех современных банках, разве что признаков используется намного больше. А результатом моделей является не просто одобрение или отказ на заявку, а уменьшение или увеличение суммы и процента кредита. Чем надёжнее клиент, тем лучше для него условия. Клиенты, имеющие признаки ненадёжных плательщиков, должны переплачивать банку за риски невозврата кредита. А надёжность или ненадёжность будущего клиента определяется в зависимости от того, насколько новый клиент похож на предыдущих надёжных или ненадёжных заемщиков.

– Итак, дата-аналитики, дата-инженеры и дата-сайентисты — 3 классических направления Big Data. Давайте напоследок кратко сформулируем особенности каждой из этих профессий.

Дата-аналитики транслируют бизнес-потребность и находят данные, которые можно использовать для реализации бизнес-идеи.

Дата-инженеры получают ТЗ от аналитиков и создают оптимизированные приложения по обработке данных.

Дата-сайентисты исследуют данные, применяя методы статистики и машинного обучения для нахождения информации, которую невозможно проанализировать человеком.


Как выучить Big Data — отвечают эксперты.

📊 С чего начать погружение в Big Data?

Генерация и обмен большими данными между устройствами происходит практически в каждой социальной сфере. С Big Data работают такие гиганты Google, Uber, IBM, Amazon, оптимизируя работу с клиентами, снижая риск мошенничества и угроз безопасности данных. Специалисты по Big Data необходимы в сферах: маркетинга, поисковых технологий, ритейла, социальных сетях, играх, персонализации, речевых технологиях, финансовых учреждениях и в рекомендательных системах.

Вакансии Data Scientist, Data Engineer и Data Analyst все чаще встречаются в объявлениях с привлекательно высокими зарплатами. С чего начать погружение в Big Data? Чтобы влиться в это направление, рассмотрим основные знания, навыки и технологии, которые стоит изучить новичку для поиска работы.

Направления в Big Data

Существует три основных направления специалистов по Big Data: Data Science, Data Engineer, Data Analyst. Всем им желательно иметь высшее образование (бакалавр, магистр) по техническим специальностям: компьютерные системы, информационные технологии, экономическая кибернетика или подобным.

Разберем направления работы экспертов по большим данным:

  • Аналитикой занимаются Data Scientist и Data Analyst, в их обязанности входит формирование гипотез, поиск закономерностей в наборах данных (dataset), визуализация информации, подготовка данных к моделированию, разработка алгоритмов Machine Learning (машинного обучения), интерпретация полученных данных, а также изучение предметной области или бизнес-процесса.
  • Инженерия относится к профессиям Data Engineer и администратор. Такие специалисты занимаются поддержкой, созданием и настройкой программной и аппаратной инфраструктуры системы сбора, хранения и обработки информации, а также аналитикой массивов и информационных потоков, в том числе конфигурированием облачных (Cloud) и локальных кластеров.

Специалист по Big Data должен знать, что такое самодисциплина и уметь следовать рабочему процессу, который бывает монотонным и однообразным.

Для работы с большими данными, необходимо иметь хотя бы базовые знания:

Что нужно знать Data Scientist?

Исследователь, ученый по данных (Data Scientist) в основном занимается извлечением полезной информации из массивов сведений.

Основные знания, которыми должен обладать специалист Data Scientist:

  • Математика, а точнее теория вероятностей, статистика и дискретная математика. Знания математики необходимы и для машинного обучения, что предполагает также использование линейной алгебры.
  • Различные информационные технологии, средства и методы для интеллектуального анализа данных (Data Mining): языки программирования (Haskell, R, Julia, Python), среды для статического анализа данных (MatLab, R-Studio, Jupyter Notebook), структуры и алгоритмы данных, машинное обучение и иные ветви искусственного интеллекта (генетические алгоритмы, искусственные нейронные сети, deep learning).
  • Понимание предметной области.

Что следует изучать Data Engineer?

Роли в Data Engineering:

  • Database Administrator должен обладать обширными знаниями по базам данным, уметь настраивать СУБД и уровни доступа пользователей, обслуживать и обеспечивать бесперебойную работу системы.
  • Data Architect создает основу для управления данными, их прием из разных источников, интеграцию и обслуживание. Для этого стоит использовать Apache Pig, SQL, Apache Spark, Hive, XML, Apache Zookeeper, Apache Kafka и тому подобные инструменты.
  • Data Engineer должен уметь пользоваться инструментами для работы с базами данных, знать языки программирования (Python или Java), уметь пользоваться системами AWS, HDFS (Hadoop S3 Buckets, MapReduce).

Каждому из перечисленных специалистов важно понимать, как работают операционные системы, а также обладать навыками машинного обучения.

Какой базой должен обладать Data Analyst

Для аналитика не обязательно высшее образование в области информационных технологий. Однако Data Analyst должен разбираться в бизнес-процессах, понимать статистику, выполнять машинное обучение, уметь работать с инструментами.

Типа анализа данных:

  • Описательный – для сбора характеристик, обработки полученной информации.
  • Прогнозный направлен на прогнозирование будущих результатов.
  • Диагностический помогает обнаружить ошибки в данных.
  • Предписательный включает перечисленные выше типы анализа информации.

В обязанности аналитика также входят задачи по Business Inteligence (BI) и оптимизации процессов на производстве. Специалист должен знать методы анализа бизнес-процессов: SWOT, ABC, IDEF, BPMN, ССП, PDCA, EPC и прочие.

Базовые навыки Data Analyst:

  • Умение извлекать данные из различных источников (Hadoop, MS SQL, MySQL и др.).
  • Обработка информации с использованием Scala, R, Python или Java.
  • Визуализация структурированных данных с применением Qlik, Plotly или Tableau.
  • Формирование исследования, которое соответствует категории бизнес-задачи.
  • Предоставление гипотез в соответствии с задачами бизнеса.

Дополнительно аналитик может использовать Apache Storm, Apache Kinesis, Apache Spark Streaming.

Специалистам по Big Data нужно уметь строить графические модели, используя байесовские и нейронные сети, кластеризацию и виды анализа. Data Scientist, Data Analyst или Data Engineer должны обладать навыками работы с Data Lakes (озерами данных), а также разбираться в вопросах безопасности и управления данными (Data Governance). Стать экспертом поможет углубленная проработка каждого из навыков.

***

Если вы только начинаете путь в профессии, обратите внимание на Факультет аналитики Big Data образовательной онлайн-платформы GeekBrains. Вы научитесь собирать и анализировать данные, извлекать полезную информацию и находить закономерности. После обучения сможете проверять гипотезы и помогать бизнесу принимать взвешенные решения. Занятия под руководством опытных наставников и поддержка опытных HR помогут вам продвинуться по карьерной лестнице. Специализированный опыт не потребуется: программа предполагает освоение профессиональных навыков с нуля.

Big Data: временное явление или море возможностей?

В последнее время многие соискатели работы могли заметить «наплыв» вакансий, особенно в сфере IT, где указаны специалисты по работе с data или данными. Так, например, на сайте DOU в разделе «Data Science» подтягивается 134 вакансии, по запросу «Data Scientist» — 146 вакансий, «Data Analyst» — 83. На rabota.ua: 46 вакансий для «Data Scientist» и 288 — для «Data Analyst». Work.ua предлагает 146 вариантов для аналитика данных и 931 — при введение запроса «Data Scientist».

Конечно, требования и видение этих ролей в каждой компании (как минимум пока) может сильно отличаться — так часто происходит с относительно новыми направлениями, когда «хочу такого специалиста, но при этом добавлю-ка немного задач от проджект-менеджера или smm-щика». Поэтому давайте с вами немного разберемся в том, почему сейчас становится настолько популярным направление работы с данными и что нужно, чтобы в него влиться.

Data science, machine learning, data mining… Что же лежит в корне возникновения новых сфер деятельности? Благодаря развитию современных технологий человечество создало и продолжает производить такое количество данных, что люди просто не успевают обработать созданное ими же: ежедневно только Facebook «поставляет» 4 петабайта данных. Но именно в этих данных и кроется то, что уже помогает многим организациям выходить на первые места и успешно обыгрывать своих конкурентов: информация, которая помогает улучшать услуги и выводить бизнес-процессы на новый уровень.  

Итак, постоянно меняющийся и увеличивающийся объем данных принято называть Big Data (Большие Данные), а науку, которая помогает работать с ними — Data Science (Наука о Данных). Этот концепт включает в себя такие этапы, как очистка данных, их подготовка и анализ: технически это происходит через сбор данных из разных источников и затем применение машинного обучения и разных аналитических методов для извлечения ценной информации. Специалист по обработке данных, исследователь данных, Ученый по данным или Data Scientist должен понимать и переосмыслять информацию с точки зрения бизнеса. Его главная задача — предоставить стратегически важные прогнозы и инсайты, которые способны качественно повлиять на принятые бизнес-решения

Data Science находится на пересечении разных областей человеческой деятельности: с одной стороны, она включает в себя математику и статистический анализ, с другой — в ней важны навыки программирования, а с третьей — вы должны хорошо ориентироваться в доменной области, чтобы понимать, какие данные нужно анализировать.

Лучше всего это представлено на диаграмме Венна, исходя из которой можно составить список основных требований к роли Data Scientist:

  • навыки программирования/машинного обучения. Как правило, на языке Python или R;
  • математические и аналитические навыки;
  • умение работать на языке SQL;
  • знание доменной области. 

Согласно сайту DOU, средняя зарплата специалиста по обработке данных за декабрь 2020 года составляла от 500 до 1000$ при опыте работы до года, 2+ лет — от 650 до 1500$, при 3+ лет опыта — от 720 до 2200$. 

Отдельно можно выделить специалистов в категории машинного обучения и тех.поддержки процесса работы с Big Data (об этом мы поговорим в следующих статьях). Сегодня хотелось бы еще немного остановиться на анализе данных. Data Analyst или Аналитик Данных — это одна из самых востребованных профессий в области Big Data. Его компетенции во многом схожи с компетенциями Ученого по Данным — он должен уметь собирать, сортировать и подготавливать массивы данных, искать в них закономерности, строить гипотезы и уметь визуально представить полученные результаты, чтобы улучшать бизнес-метрики за счет принятия более качественных решений на основе выявленных тенденций и созданных прогнозов. Основные отличия: 

  • аналитику, как правило, не нужны навыки программирования или машинного обучения. Хотя некоторые компании включают их в свои вакансии.
  • Data Scientist строит прогнозы на будущее, в то время как аналитик больше анализирует данные постфактум, чтобы найти важные инсайты.
  • Data Scientist «создает правильные вопросы», Data Analyst «ищет ответы на заданные вопросы».

Согласно DOU, средняя зарплата аналитика данных за декабрь 2020 года при опыте работы меньше года — от 500 до 1000$, 2+ лет опыта — от 500 до 1200$, 3+ лет опыта — 600-1500$. 

Так с чего же все-таки начать свой путь в Big Data? Для начала — посмотреть наш вебинар «Data Analysis — искусство изучения данных», чтобы «попробовать на вкус» эту роль. 

Чувствуете, что вам была бы интересна эта профессия и, в целом, область Big Data? Тогда приглашаем вас на курс «Анализ данных», где вы получите профессиональные навыки будущего!

Похожие темы

Использование Big Data в международном бизнесе | АЛЕКСЕЕВ

1. Lynch C. Big data: how do your data grow? Nature, vol. 455, № 7209, 2008, pp. 28-29.

2. Артемов C. Big Data: новые возможности для растущего бизнеса. URL: https://www.itweek.ru/upload/iblock/d05/jet-big-data.pdf, 12.07.2020 / Artemov S. Big Data: New Opportunities for a Growing Business (in Russian).

3. Головина Т.А., Авдеева И.Л., Парахина Л.В. Использование цифровых и мобильных инноваций для развития предприятий регионального интернет-рынка. Вопросы современной экономики, no. 3, 2014 г. / Golovina T.A., Avdeeva I.L., Parakhina L.V. Use of digital and mobile innovations for development of the enterprises regional the market of Internet. Contemporary economic issues, no. 3, 2014 (in Russian).

4. Корытникова Н.В. Online Big Data как источник аналитической информации в online-исследованиях. Социологические исследования, no. 8, 2015 г., стр. 14-24 / Кorytnikova N.V. Online Big Data as a source of analytic information in online research. Sotsiologicheskie issledovaniya [Sociological Studies], no. 8, 2015, pp. 14-24 (in Russian).

5. Измалкова С.А., Головина Т.А. Использование глобальных технологий «Big Data» в управлении экономическими системами. Известия Тульского государственного университета. Экономические и юридические науки, вып. 4-1, 2015 г., стр. 151-158 / Izmalkova S.A., Golovina T.A. The use of global technologies «Big Data» in the management of economic systems. Bulletin of the Tula State University. Economic and legal sciences, issue 4-1, 2015, pp. 151-158 (in Russian).

6. Марков Н.Г., Сонькин Д.М., Фадеев А.С., Шемяков А.О., Газизов Т.Т. Интеллектуальные навигационно-телекоммуникационные системы управления подвижными объектами с применением технологии облачных вычислений. Горячая Линия – Телеком, 2014 г., 158 стр. / Markov N.G., Sonkin D.M., Fadeev A.S., Shemyakov A.O., Gazizov T.T. Intelligent navigation and telecommunication systems for controlling mobile objects using cloud computing technology. Hot line – Telecom, 2014, 158 p. (in Russian).

7. Mayer-Schoenberger V., Cukier K. Big Data: A Revolution That Will Transform How We Live, Work, and Think. Eamon Dolan/Mariner Books, 2014, 272 p.

8. Савельев А.И. Проблемы применения законодательства о персо-нальных данных в эпоху «Больших данных» (Big Data). Право. Журнал Высшей школы экономики, no. 1, 2015 г., стр. 43–66 / Savelyev A.I. The Issues of Implementing Legislation on Personal Data in the Era of Big Data. Pravo. Zhurnal Vysshey shkoly ekonomiki, no.1, 2015, pp. 43–66 (in Russian).

9. Толстова Ю. Н. Социология и компьютерные технологии. Социологические исследования, no. 8, 2015 г., стр. 3-13 / Tolstova Yu.N. Sociology and computer technologies. Sotsiologicheskie issledovaniya [Sociological Studies], no. 8, pp. 3-13 (in Russian).

10. Соколянский В.В., Пашков Б.С. Технологии Big Data и их инсталляции в экономические исследования. Вопросы экономических наук, no. 4, 2015 г., стр. 169-171 / Sokolyansky V.V., Pashkov B.S. Big Data technologies and their installations in economic research. Issues of economic sciences, no. 4, 2015, pp. 169-171

11. Черняк Л. Большие Данные – новая теория и практика. Открытые системы. СУБД, вып. 10, 2011 / Chernyak L. Big Data: New Theory and Practice. Open systems. DBMS, issue 10, 2011 (in Russian).

12. Japek L., Crater F., Berg M., et al. AAPOR Report: Big Data. American Association of Opinion Researchers. URL: https://www.aapor.org/Education-Resources/Reports/Big-Data.aspx, 12.07.2020

13. Namiot D., Sneps-Sneppe M. On M2M Software Platforms. International Journal of Open Information Technologies, vol. 2, no. 8, 2014, pp. 29-33.

14. Namiot D., Sneps-Sneppe M. On IoT Programming. International Journal of Open Information Technologies, vol. 2, no. 10, pp. 25-28.

15. Cugola G., Margara A. Processing flows of information: From data stream to complex event processing. ACM Computing Surveys (CSUR), vol. 44, issue 3, 2012, article no. 15.

кто здесь работает и как сюда попасть

Экскурс: больше data science

Наука о данных ведет свою историю с 1966 года. Именно тогда в Париже появился Комитет по данным для науки и техники при Международном научном совете. Однако, долгое время выражение «data science» можно было услышать только в узких кругах статистиков и ученых. Лишь в начале 2000-х термин стал общепризнанным в Америке и Европе, а с появлением и распространением хайпа вокруг Big Data традиционная наука о данных получила новое дыхание.

Внезапно аналитики стали нужны всем: бизнесу и государству, интернету и сельскому хозяйству. В 2011 году McKinsey подливает масла в огонь: по их предсказаниям, к 2018 году только в США потребуется больше 400 тысяч аналитиков данных. Где же их столько взять? В 2013 году университеты запускают магистратуру по data science, а бизнес-школы плодят курсы для Big Data специалистов.

В России происходит все то же самое, но чуть медленнее. На сегодняшний день количество вакансий, связанных с big data, на hh.ru переваливает за тысячу. При этом, отрасль остается новой и загадочной: большие данные притягивают специалистов и одновременно отпугивают. Сегодня будем развеивать страхи и изгонять жаждущих легких денег. Если вы до сих пор думаете, что работа с big data – это нечто, связанное со сверхспособностями и единорогами, приготовьтесь к погружению в реальность.

Big data профессии по полочкам

Добро пожаловать в отдел социальной аналитики Eastwind. Здесь наши коллеги создают и развивают платформу Social Analytics. Этот продукт помогает телеком-операторам и бизнесу собирать сырые неструктурированные данные и преобразовывать их в инсайты о клиентах. За удобными юзер интерфейсами и результатами кейсов, скрывается большой труд ребят из отдела социальной аналитики.

Заметим, что в зависимости от страны, компании и специфики бизнеса профессии подобного отдела могут называться по-разному. Некоторые (больше принято на зарубежном рынке) дробят функции big data специалистов и получают узконаправленных экспертов. Но в общем, все профессии, тесно связанные с Big Data, можно разделить на два основных направления: анализ данных и разработка.

В соответствующих рабочих группах Eastwind мы попросили рассказать: в чем суть работы аналитиков и разработчиков отдела, какие технологии они используют, с каким бэкграундом люди обычно приходят в big data и что нужно специалистам для успеха в этой индустрии.

Data scienist или аналитик big data

Суть работы:

– Человек продуцирует много фиксируемых событий. Например, у операторов это звонки и трафик, у банков – транзакции, в ритейле – посещения и покупки. Мы выявляем закономерности в этих данных, чтобы использовать их для бизнеса, – рассказывает Андрей Плющенко, руководитель группы анализа данных в Eastwind. – Работаем с сырой информационной историей. Из необработанных данных нам нужно убрать мусор и оставить то, что позволит лучше охарактеризовать людей, предсказать их поведение. Все это помогает бизнесу понять: какой товар или услуга вероятнее всего заинтересуют клиента. А также: когда это произойдет, стоит ли предоставлять ему кредит доверия и так далее. В нашей группе мы строим поведенческие модели, тестируем их и настраиваем алгоритмы machine learning – все кодим на python.

Бэкграунд и технологии:

– Обычно в анализ больших данных приходят математики. Я сам математик, –продолжает Андрей. – Также нужно разбираться в программировании, понимать, что такое big data в принципе, а главное – быть творческим человеком. Нам ведь постоянно приходится что-то придумывать, генерировать идеи, искать инсайты. Если говорить о технологиях, то для работы достаточно знать python, что-нибудь о распределенных вычислениях и устройстве кластеров данных.

– Я пришла в big data из java-разработки, – делится Ольга Анненкова, группа анализа данных Eastwind. – Просто плавно перешла из одной группы в другую, вместе со своими задачами. Сейчас сама разработка стала более аналитической. Сложность нашей работы в том, что постоянно появляются новые продукты, нам нужно очень быстро внедрять их и разбираться, как они работают, несмотря на баги. Интересно, потому что мы работаем с настоящими конфиденциальными данными и можем видеть результат своих вычислений и верность предсказаний в реальной жизни. Аналитика big data – это труд программиста, математика и исследователя в одной специальности.

Важно для успеха:

– Чтобы работать в анализе больших данных, нужно иметь скилы из разных областей, – добавляет Михаил Чернышев, группа анализа данных Eastwind. – Уметь делать визуализации, обладать фантазией и терпением. Не факт, что модель, которую ты придумаешь, сработает с первого раза.

– Самое сложное и начинается, когда тебе нужно тюнинговать созданную модель, – подтверждает Дмитрий Журавлев, группа анализа данных Eastwind. – Для создания и улучшения метрик важно с разных сторон смотреть на проблему.

– Главные компетенции рождаются при решении промышленных задач. Нельзя пройти курсы, почитать теорию, вдохновиться модой и стать успешным big data аналитиком, – объясняет Андрей Плющенко. – С сырой историей работать всегда сложнее, чем с готовыми фичами, которые дают на конкурсах. В каждой компании – свои специфические задачи, к решению которых нужно подходить индивидуально. Нужно приготовиться, что в работе с big data нет шаблона. Поэтому, после освоения базы, вам придется постоянно совершенствоваться. Но будет интересно.

Data engineer или разработчик в сфере big data

Суть работы:

– Мы занимаемся структурным обеспечением группы аналитиков. Другими словами, делаем так, чтобы им было проще работать с большими объемами данных, с кластерными и операционными системами, – рассказывает Шерзод Гапиров, руководитель группы разработки в отделе аналитики Eastwind. – В идеале, аналитики не должны углубляться в программирование. Им это не особо интересно и отвлекает от основного – построения моделей и работы с вычислениями.

– Разработчики в big data – это саппорт аналитикам, – дополняет Сергей Сычев, разработчик в отделе аналитики Eastwind. – Мы оптимизируем рутинные процессы, разрабатываем приложения для работы с данными. Решаем технические задачи, вроде шифрования информации. Так как область новая, зачастую нам приходится изобретать какие-то «костыли», писать новые скрипты и сразу вводить в работу.

Бэкграунд и технологии:

– В отдел аналитики мы берем людей из любой области разработки, — делится Шерзод Гапиров. – Важно, чтобы был хороший опыт программирования, понимание реляционных баз данных и работы систем – Linux, Hadoop. Еще хорошо бы знать языки java и scala. Если такая база есть, специфике big data мы обучаем с нуля.

– У нас есть кластер Cloudera, в его стеке – Oozie, HDFS, Spark. Во фронтенде мы используем React, – перечисляет технологии Сергей Сычев. – Но самое главное, в работе нашей группы – постоянно следить за новинками, внедрять их, быть на волне. Способность к обучению в big data разработке я бы поставил выше всего.

Важно для успеха:

– Наш человек – технарь. Тот, кто любит покрутить гаечки или разобрать технику, чтобы понять, как она работает, — говорит Шерзод Гапиров. – Чтобы преуспеть в этом, нужно просто проявлять упорство. Со стороны Big Data кажется сложной и возвышенной областью, потому что люди мало с ней знакомы. По факту, когда разберешься и вникнешь – big data разработка становится обычной инженерной работой и не отличается от любого другого программирования.

Профессии около big data

Рассказывая о специальностях отрасли, нельзя не упомянуть некоторые «вспомогательные» профессии. Это люди, которые напрямую не работают с большими данными, но тесно связаны с развитием многих аналитических платформ. Это тот случай, когда вы не математик и не технарь, но все-таки можете похвастаться, что крутитесь в сфере Big data. 😉

Дизайнер интерфейсов. Этот человек упаковывает все сложные вычисления и технологии в простую форму.Особенность создания интерфейсов аналитических платформ – большое количество параметров данных. Дизайнер делает так, чтобы пользователь по ту сторону экрана мог легко во всем разобраться и запускал собственные исследования без глубокого погружения в предметную область big data.

«Для создания интерфейсов к аналитическим платформам нужно разбираться в web-разработке, UX-дизайне и обладать чувством прекрасного, – объясняет Александр Иноземцев, руководитель группы веб-интерфейсов в Eastwind. – Нужно уметь поставить себя на место человека, который будет пользоваться интерфейсом, и сделать процесс управления максимально удобным и простым для него».

Продакт-менеджер. Этот человек продвигает аналитическую платформу в живой бизнес-среде: участвует во внедрении, развивает систему по потребностям заказчика и требованиям рынка. Он должен хорошо разбираться в продукте и быть связующим звеном между разработчиками и компанией.

«Для нашего технического отдела – я менеджер, который работает с клиентом. А клиенты часто считают меня технарем, — рассказывает Александр Павлов, менеджер продукта Eastwind Social Analytics. – Это отражает особенность профессии менеджера big data продукта: быть в равной степени погруженным в коммерческие нужды и технические возможности, понимать логику исследований данных и быть первым объективным тестировщиком UI».

Где учиться, чтобы взяли на работу

Если вы не передумали погружаться в Big Data, и готовы разбираться в теме: поищите подходящие программы на Coursera, послушайте, что рассказывают в Школе анализа данных от Яндекс и рассмотрите курсы от Open Data Science. Также сейчас ведут онлайн-курсы многие зарубежные университеты: например, введение в big data от Калифорнийского Berkeley или введение в data science от Массачусетского института технологий. Этот вариант подойдет, если ваш английский выше технического. Есть магистерские программы и в российских ВУЗах.

«Мы берем людей после таких курсов. Их большой плюс в том, что они уже понимают специфику отрасли, – говорит Андрей Плющенко, руководитель группы анализа данных в Eastwind. – На собеседовании я обычно задаю базовые вопросы по machine learning. Например, что такое классификация, регрессия и кластеризация? Или: что сделать, чтобы не переобучиться? Есть и вопросы с подвохом, но даже если человек на них не ответил – не значит, что его не возьмут. Намного важнее, чтобы специалист понимал, что сейчас он на старте, и был готов к прокачке.Почему глупо требовать большой опыт в этой области? На Урале сильная математическая и программистская школа, а вот применить свои знания ребятам, которые решили стать аналитиками данных – почти негде. Даже Яндекс сократил своих местных дата сайнтистов. Поэтому многие уезжают в Москву, более амбициозные – за рубеж. В Екатеринбурге мы – одни из немногих, у кого есть полноценный аналитический отдел».

Big data – работа «что надо»?

Мы выяснили, что в отрасли больших данных нет ничего магического и, при желании, – туда не так трудно попасть, как кажется. Потребуются лишь способности к математике, логике и программированию. А еще умение творить, видеть задачи под разным углом и понимать людей и бизнес одновременно. Ну и в идеале – нужно быть терпеливым, настойчивым, всегда готовым к новому и проходить сквозь стены. Ой, последнее – лишнее. 🙂

В общем, берем свои слова насчет «не так трудно» обратно. Уровень сложности зависит исключительно от ваших индивидуальных способностей и желаний. Примеряйте на себя профессии, проверяйте свои скилы и ищите то, что вам подходит. Нашли? Тогда спасибо за внимание и добро пожаловать в Big Data

Большие данные, искусственный интеллект, финансовые технологии и машинное обучение: Проекты направления

1. Новая редакция
2. Построение профиля абитуриента бизнес школы на базе данных социальной сети
3. Оценка правдоподобия структуры молекулярного комплекса
4. Инструменты поддержки врача рентгенолога на основе ИИ

Описание проектов

1. Новая редакция

Руководитель проекта: Бибилов И.

Аннотация: Предстоит два больших этапа.

1 этап. Исследовательский этап. Будет найдено большое количество мест, в которых можно заменить редактора, копирайтера, журналиста компьютерными программами. Например, можно отслеживать новости на сайтах информационных агентств, следить публикациями популярных блогеров, спортивными и погодными сервисами. Из предложенных текстов можно извлекать смысловые куски и публиковать новости на основе извлеченных данных. Например, «Российская лыжница Наталья Непряева завоевала серебро в гонке на 10 километров свободным стилем на этапе Кубка мира в чешском Нове Место. Об этом сообщает корреспондент «Ленты.ру». Первой финишировала норвежка Тереза Йохауг, преодолевшая дистанцию за 23 минуты 51,6 секунды. Непряева отстала на 32,7 секунды. Замкнула тройку лидеров другая представительница Норвегии Хейди Венг (+40,3 секунды)». В тексте этой новости нет ничего такого, чего не могла бы написать программа, которая имеет доступ к результатам соревнований и списку итоговых результатов. Таким образом, огромное количество вторичной информации со ссылкой на первоисточники может быть сгенерировано в очень короткое время на новостном портале. Быстрота публикаций очень важна, ибо от нее зависит посещаемость страницы с новостью, а также количество ссылок на нее, а значит и рекламная привлекательность портала в целом. Вместе с участниками будут разобраны примерные алгоритмы такой генерации, включая шаблонные подстановки, алгоритмы морфологического и синтаксического разбора, некоторые алгоритмы машинного обучения.

2 этап. В конце первого этапа останется подвешенным вопрос: «А что будет теперь с журналистами, копирайтерами и редакциями?». Участники реализуют некоторые алгоритмы, изученные на 1 этапе. Окажется, что эти программы будут очень полезны для редакций, уберут кучу рутины по переписыванию новостей (рерайтинг), а также помогут в поиске интересных событий. А за живыми работниками редакций останется аналитика и интерпретация, что может привести к увеличению оригинального контента.

Партнер проекта: Общество с ограниченной ответственностью «Яндекс»


2. Построение профиля абитуриента бизнес школы на базе данных социальной сети

Руководитель проекта: Еремеева Л.А.

Аннотация: Университеты постоянно находятся в конкурентной борьбе за талантливых абитуриентов. Для того, чтобы придумать как продвигать свои образовательные программы, университеты, как и любые другие компании, должны лучше узнавать тех, кто потенциально может быть заинтересован в их продукте. При этом университеты знают из каких школ и городов поступают к ним студенты, но хотят знать то, что не лежит на поверхности – чем интересуется абитуриент, какую музыку слушает, что читает, с кем дружит.  
На основании данных социальных сетей предлагается проанализировать данные о поступающих и учащихся студентах, классифицировать всех поступающих по интересам и построить профиль абитуриента одного из факультетов университета.

Партнер проекта: Публичное акционерное общество «БАНК ВТБ», Высшая школа менеджмента Санкт-Петербургского государственного университета


3. Оценка правдоподобия структуры молекулярного комплекса

Руководитель проекта: Садовников А.В.

Аннотация: Предсказание структуры комплекса, который образуют несколько молекул, — ключевой этап создания лекарства с помощью компьютерного моделирования. 

Алгоритмы решения этой задачи для каждого молекулярного комплекса выдают несколько вариантов его структуры. Среди этих вариантов нужно найти наиболее правдоподобные: такие, которые действительно могут существовать в природе. По отобранным вариантам структуры комплекса можно понять, какими частями взаимодействуют молекулы, входящие в его состав. От этого зависит, насколько правильно будет работать создаваемое лекарство.

Участникам проекта предстоит разработать новый способ оценки правдоподобия структуры молекулярного комплекса. В его основу лягут классические подходы машинного обучения, которые участники освоят в процессе работы над проектом: кластеризация, метод k ближайших соседей, линейная регрессия, решающие деревья и другие.

Новый способ оценки правдоподобия структуры молекулярного комплекса впоследствии будет использоваться в алгоритме HEDGE, разработанном в компании «Биокад».

Партнер проекта: BIOCAD


4. Инструменты поддержки врача рентгенолога на основе ИИ

Руководитель проекта: Кисилев С.

Аннотация: Программа модуля разработана Центром ИИ Университета Иннополис. Как отмечают эксперты, применение технологий искусственного интеллекта в медицине в последние годы переживает «бум» в России и в мире. Особенно это актуально сейчас, когда ситуация с распространением коронавирусной инфекции показала, насколько важно автоматизировать все возможные процессы и разгружать врачей в части рутинных операций.

На теоретической части курса участники познакомятся с особенностями медицинских изображений, методами машинного обучения для их анализа, классическими методами компьютерного зрения для сегментации органов на КТ. Практическая часть даст возможность поработать с публичными данными и датасетами, собранными из реальных больниц, применить изучаемые алгоритмы к реальным исследованиям. Участники реализуют алгоритм сегментации легких из уже существующих научных статей и затем расширят его для определения отдельных частей легких. А также получат опыты работы с фреймворком PyTorch в языке Python. На базе разработанных моделей и алгоритмов, они создадут open-source библиотеку, которая позволит разработчикам со всего мира протестировать и использовать результаты данного проекта. Опционально будет разработан графический интерфейс для визуализации работы моделей и алгоритмов.

Партнер проекта: Университет Иннополис

Большие данные / Томский политехнический университет

Сегодня во всем мире наблюдается всплеск интереса к технологиям класса BIG DATA. Это связано с постоянным ростом объемов данных, которыми приходится оперировать и которые приходится контролировать крупным компаниям. Накопленная информация для многих организаций является важным активом, однако обрабатывать ее и извлекать из нее пользу с каждым днем становится все сложнее и дороже.

Под терминами «Big Data» или «Большие данные» скрывается огромный набор информации. Причем объем ее столь велик, что обработка больших объемов данных стандартными программными и аппаратными средствами представляется крайне сложной. Не менее остро стоит и проблема хранения гигантских объемов данных. Наиболее яркий пример больших данных – это информация, поступающая с различных физических экспериментальных установок, – например, с Большого адронного коллайдера.

На базе Томского политехнического университета функционирует Лаборатория обработки и анализа больших данных (Big Data Analytics and Technologies Laboratory). Ученые поставили перед собой задачу за два года разработать систему хранения больших объемов информации, которую опробуют в экспериментах ЦЕРНа (Европейского центра ядерных исследований) – система позволит за секунды получать ту информацию, на которую раньше уходили часы и сутки. Курирует работу новой современной лаборатории Алексей Климентов – ведущий мировой специалист в области современных методов сбора, хранения, обработки и анализа данных для экспериментов и установок мегасайнс класса, глава исследовательской группы по физическому программному обеспечению Национальной лаборатории Брукхэвен (США).

В ЦЕРНе, в крупном эксперименте «АТЛАС», он координирует вопросы обработки полученных данных и разработки, связанные с суперкомпьютерами. Во время визита в ТПУ представители ЦЕРНа провели собеседования со студентами вуза, и лучшие студенты смогли отправиться на стажировку в центр.

По словам специалиста кафедры прикладной математики Института кибернетики ТПУ, стажера в IT-департаменте проекта «АТЛАС» Валерия Парубца, в рамках работы в эксперименте ATLAS задачами политехника стали анализ и хранение данных большого объема (Big Data).

«Данные, которые поступают в систему с Большого адронного коллайдера, исчисляются терабайтами в секунду, и наша задача — получить уникальный практический опыт работы с информацией таких колоссальных объемов, а затем передать полученные знания в ТПУ».

— Валерий Парубец, специалист КПМ ИКТПУ

Он отмечает, что Big Data является на сегодняшний день ключевым направлением развития информационных технологий. Это серия подходов, инструментов и методов обработки структурированных и неструктурированных данных огромных объемов. И эти объемы с каждым годом увеличиваются в разы. Классические методы обработки, которые работали пять-десять лет назад, с таким потоком информации справляться уже не в состоянии, и сегодня специалисты в области IT ищут новые методы. Для решения этой глобальной задачи ЦЕРН является наилучшим местом. На сегодня там с разными задачами находятся около десятка политехников.

Объемы получаемых данных составляют петабайты в секунду.

Существенная часть столкновений частиц науке известна, и физикам важно запечатлеть необычные столкновения, подтверждающие ту или иную гипотезу. Это примерно 1 % от общего объема данных, получаемых с коллайдера.
Однако даже этот процент очень велик. Проводятся все новые эксперименты, в систему поступают все новые данные. Чтобы обработать всю собранную на сегодняшний день информацию, по примерным подсчетам ученым потребуется 100 лет, а то и больше, непрерывных вычислений на нынешних мощностях.

Поэтому очень важно придумать, как оптимизировать все необходимые подсчеты. Именно это и является задачей стажеров Томского политеха в рамках участия в эксперименте ATLAS – работа над анализом и хранением данных большого объема (Big Data).

Пока же собранная с Большого адронного коллайдера информация «дожидается» обработки, эти массивы данных требуют сохранения. Ученым ЦЕРНа удалось решить задачу, разработав систему Grid (LHC Computing Grid). Это глобальная вычислительная сеть ЦЕРНа, место расположения которой – весь мир. В состав Grid входит 170 вычислительных центров из 36 стран. Они непрерывно получают, сохраняют и обрабатывают информацию из ЦЕРНа.
«Моя задача состоит как раз в том, чтобы доработать систему распределения данных. Проработать алгоритмы: куда и что следует отправлять. Большинство работников ЦЕРНа в итоге ничего и не заметит. Однако это избавит людей, которые занимаются хранением информации, от постоянных консультаций с экспертами о порядке приема этих данных, – рассказывает о своей работе Валерий Парубец. – С точки зрения «айтишника», это очень интересная задача, приходится оперировать колоссальными объемами информации, которая растекается по всему миру».

В дальнейшем полученный опыт работы политехник использует в своей научной работе по возвращении в Томский политехнический университет, где участники проекта «АТЛАС» продолжают удаленную работу с центром. Они будут работать в Лаборатории обработки и анализа больших объемов данных при центре RASA в Томск.

Эти и многие другие вопросы обсуждали в начале декабря в ТПУ на первой международной школе по Big Data. Ее участниками стали ведущие исследователи из России, Великобритании, США и Италии.Организаторами Международной молодежной научной конференции-школы по распределенным гетерогенным вычислительным инфраструктурам выступили Томский политехнический университет и Национальный исследовательский центр «Курчатовский институт», при поддержке центра RASA Томск. Это первое масштабное мероприятие за Уралом в сфере Big Data.

Во время работы школы все желающие смогли посетить выступления ученых, лекции и семинары. Ученые рассказали о применении нейронных сетей в индустриальной кибербезопасности, о методах поиска астероидов на околоземных орбитах, машинном обучении и работе с данными на Большом адронном коллайдере.

В будущем технологии Big Data позволят работать с еще большим объемом информации, и ученые надеются, что это позволит улучшить качество жизни людей, изменить транспортные условия, повысить точность прогнозов погоды и так далее.

«В России, по сравнению с США и Европой, пока реализовано достаточно мало систем, работающих с большими объемами данных. Потребность же в них есть у банковского сектора, нефтегазовой отрасли, сферы телекоммуникаций и так далее. Весь этот колоссальный объем данных нужно собирать, хранить и каким-то образом анализировать».

— Максим Иванов, и.о. заведующего кафедрой программной инженерии ТПУ

границ | Проблемы и будущие направления использования больших данных и искусственного интеллекта в образовании

Введение

Цель этого документа с изложением позиции — представить текущее состояние, возможности и проблемы больших данных и ИИ в образовании. Работа основана на мнениях и протоколах панельных дискуссий международной конференции по большим данным и искусственному интеллекту в образовании (The International Learning Sciences Forum, 2019), на которой выдающиеся исследователи и эксперты из различных дисциплин, таких как образование, психология, наука о данных, искусственный интеллект , когнитивная нейробиология и т. д., обменялись знаниями и идеями. Эта статья организована следующим образом: мы начинаем с обзора последних достижений в области больших данных и искусственного интеллекта в образовании. Затем мы представляем основные проблемы и новые тенденции. Наконец, на основе наших дискуссий о больших данных и искусственном интеллекте в образовании предлагаются выводы и перспективы.

Быстрое развитие технологий больших данных и искусственного интеллекта (ИИ) оказало глубокое влияние на все сферы человеческого общества, включая экономику, политику, науку и образование.Во многом благодаря этим событиям мы можем продолжать многие из наших социальных мероприятий в условиях пандемии COVID-19. Цифровые инструменты, платформы, приложения и общение между людьми генерируют огромные объемы данных («большие данные») в разрозненных местах. Технологии больших данных нацелены на использование возможностей обширных данных в режиме реального времени или иным образом (Дэниел, 2019). Характерные признаки больших данных часто называют четырьмя V. То есть объем (количество данных), разнообразие (разнообразие источников и типов данных), скорость (скорость передачи и генерации данных) и достоверность (точность и достоверность данных) (Laney, 2001; Schroeck et al., 2012; Гечи, 2014). Недавно был добавлен 5-й V, а именно ценность (т. е. данные можно монетизировать; Dijcks, 2013). Из-за внутренних характеристик больших данных (пять V) большие и сложные наборы данных невозможно обрабатывать и использовать с помощью традиционных методов управления данными. Следовательно, для сбора, хранения, распространения, анализа и управления большими данными требуются новые и инновационные вычислительные технологии (Lazer et al., 2014; Geczy, 2015). Аналитика больших данных обычно охватывает процессы сбора, анализа и оценки больших наборов данных.Извлечение практических знаний и жизнеспособных шаблонов из данных часто рассматривается как основное преимущество революции больших данных (Mayer-Schönberger and Cukier, 2013; Jagadish et al., 2014). Аналитика больших данных использует различные технологии и инструменты, такие как статистический анализ, интеллектуальный анализ данных, визуализация данных, текстовая аналитика, анализ социальных сетей, обработка сигналов и машинное обучение (Chen and Zhang, 2014).

Как подмножество ИИ, машинное обучение направлено на создание компьютерных систем, которые могут обучаться и адаптироваться к данным автоматически без явного программирования (Джордан и Митчелл, 2015).Алгоритмы машинного обучения могут предоставить новые идеи, прогнозы и решения для настройки потребностей и обстоятельств каждого человека. При наличии большого количества и высококачественных входных обучающих данных процессы машинного обучения могут достигать точных результатов и способствовать принятию обоснованных решений (Manyika et al., 2011; Gobert et al., 2012, 2013; Gobert and Sao Pedro, 2017). . Эти методы машинного обучения с интенсивным использованием данных находятся на стыке больших данных и искусственного интеллекта и способны улучшить услуги и повысить производительность образования, а также во многих других областях, включая торговлю, науку и правительство.

Что касается образования, нашей основной области интереса здесь, применение технологий искусственного интеллекта можно проследить примерно 50 лет назад. Первая интеллектуальная обучающая система «SCHOLAR» была разработана для поддержки изучения географии и была способна генерировать интерактивные ответы на заявления учащихся (Carbonell, 1970). Хотя объем данных в то время был относительно небольшим, он был сопоставим с объемом данных, собранных в других традиционных образовательных и психологических исследованиях.Исследования ИИ в образовании за последние несколько десятилетий были посвящены развитию интеллектуальных вычислительных технологий, таких как интеллектуальные обучающие системы (Graesser et al., 2005; Gobert et al., 2013; Nye, 2015), роботизированные системы (Toh et al. , 2016; Anwar et al., 2019) и чат-ботов (Смутный, Шрайберова, 2020). С прорывами в области информационных технологий в последнее десятилетие педагоги-психологи получили более широкий доступ к большим данным. Конкретно говоря, социальные сети (например, Facebook, Twitter), онлайн-среды обучения [например,например, Массовые открытые онлайн-курсы (МООК)], интеллектуальные системы обучения (например, AutoTutor), системы управления обучением (LMS), датчики и мобильные устройства генерируют постоянно растущие объемы динамических и сложных данных, содержащих личные записи учащихся, физиологические данные, журналы обучения и занятия, а также их эффективность обучения и результаты (Дэниел, 2015). Аналитика обучения, описываемая как «измерение, сбор, анализ и представление данных об учащихся и их окружении в целях понимания и оптимизации обучения и среды, в которой оно происходит» (Лонг и Сименс, 2011, с.34), часто применяются для анализа этих огромных объемов данных (Aldowah et al., 2019). Методы машинного обучения и искусственного интеллекта еще больше расширяют возможности аналитики обучения (Zawacki-Richter et al., 2019). Важная информация, извлеченная из больших данных, может быть использована для оптимизации обучения, преподавания и управления (Дэниел, 2015). Следовательно, исследования больших данных и ИИ приобретают все большее значение в образовании (Johnson et al., 2011; Becker et al., 2017; Hwang et al., 2018) и психологии (Harlow and Oswald, 2016; Yarkoni and Westfall, 2017). ; Adjerid and Kelley, 2018; Cheung and Jak, 2018).В последнее время использование больших данных и искусственного интеллекта в психологии обучения и преподавания стало новым методом передовых исследований в области образования (Daniel, 2015; Starcic, 2019).

Формулировка позиции

Все большее количество литературы пытается раскрыть ценность больших данных на разных уровнях образования, от дошкольного до высшего образования (Chen N.-S. et al., 2020). В нескольких журнальных статьях и главах книг представлены ретроспективные описания и последние достижения в быстро расширяющейся области исследований с разных точек зрения, включая систематический обзор литературы (Zawacki-Richter et al., 2019; Quadir et al., 2020), библиометрическое исследование (Hinojo-Lucena et al., 2019), качественный анализ (Malik et al., 2019; Chen L. et al., 2020) и анализ социальных сетей (Goksel and Bozkurt, 2019). Более подробную информацию можно найти в ранее упомянутых обзорах. В этой статье мы стремимся представить текущий прогресс в применении больших данных и ИИ в образовании. В целом исследования со стороны учащихся посвящены выявлению моделей и профилей обучения и аффективного поведения учащихся, совершенствованию методов оценивания и оценивания, прогнозированию успеваемости отдельных учащихся или их отсева, а также предоставлению адаптивных систем для персонализированной поддержки (Папамициу и Economides, 2014; Zawacki-Richter et al., 2019). Что касается учителей, то в ходе многочисленных исследований были предприняты попытки улучшить планирование курсов и разработку учебных программ, оценку преподавания и поддержку преподавателей (Zawacki-Richter et al., 2019; Quadir et al., 2020). Кроме того, информационные панели учителей, такие как Inq-Blotter, основанные на методах больших данных, используются для информирования учителей в режиме реального времени, в то время как учащиеся одновременно работают в Inq-ITS (Gobert and Sao Pedro, 2017; Mislevy et al., 2020). . Технологии больших данных, использующие аналитику обучения и машинное обучение, продемонстрировали высокую точность прогнозирования успеваемости учащихся (Huang et al., 2020). Только небольшое количество исследований было посвящено эффективности обучающих аналитических программ и приложений ИИ. Тем не менее, недавние результаты показали обнадеживающие результаты с точки зрения улучшения академической успеваемости и удержания учащихся, а также оказания поддержки учителям в планировании обучения и совершенствовании стратегии обучения (Viberg et al., 2018; Li et al., 2019; Sonderlund et al. , 2019; Мислеви и др., 2020).

Несмотря на растущее количество отчетов и методов, описывающих внедрение технологий больших данных и искусственного интеллекта в образовательной среде, мы видим заметный разрыв между современными технологическими возможностями и их использованием в образовании.Быстрорастущая индустрия образования разработала множество методов обработки данных и приложений ИИ, которые могут не руководствоваться текущими теоретическими рамками и результатами исследований в области психологии обучения и преподавания. Быстрые темпы технического прогресса и относительно медленное внедрение в образование способствовали увеличению разрыва между готовностью к технологиям и их применением в образовании (Macfadyen, 2017). Существует настоятельная необходимость сократить этот разрыв и стимулировать внедрение технологий в образование.В этой работе представлены различные точки зрения и их спорные вопросы, современные исследования и предполагаемые будущие разработки в области внедрения больших данных и ИИ в образовании. Мы выступаем за междисциплинарный подход, который охватывает образовательные, технологические и государственные сферы влияния. В образовательной сфере наблюдается относительная нехватка знаний и навыков в области приложений ИИ и больших данных. С технологической точки зрения немногие специалисты по данным и разработчики ИИ знакомы с достижениями психологии образования, хотя ситуация меняется с появлением программ для выпускников на стыке наук об обучении и компьютерных наук.Наконец, с точки зрения государственной политики, основными проблемами, с которыми приходится сталкиваться, являются регулятивные и этические дилеммы между поддержкой образовательных реформ и ограничениями на внедрение технологий, ориентированных на данные.

Междисциплинарный подход к внедрению больших данных и искусственного интеллекта в образование

В ответ на новые возможности и вызовы, связанные с бурным ростом больших данных и революцией в области искусственного интеллекта, ученым, преподавателям, политикам и специалистам необходимо продуктивно сотрудничать.Они должны работать вместе, чтобы развивать у наших учащихся необходимые компетенции и основные навыки, важные для работы в 21 веке, движимой экономикой знаний (Bereiter, 2002). Сотрудничество между различными дисциплинами и секторами является сложной задачей, особенно когда у отдельных сторон нет четкого видения своих взаимовыгодных интересов и необходимых знаний и навыков для реализации этого видения. Мы выделяем несколько пересекающихся сфер интересов на стыке исследований, разработки политики и участия в промышленности.Исследователи и промышленность выиграют от целенаправленного развития образовательных технологий и их эффективного переноса в коммерческие продукты. Предприятия и правительства выиграют от законодательной власти, которая стимулирует рынки технологий, обеспечивая при этом надлежащую защиту данных и конфиденциальности пользователей. Академикам и политикам было бы полезно уделять приоритетное внимание образовательным реформам, позволяющим более широко внедрять учебные программы, основанные на технологиях. Недавние разработки и будущие тенденции на пересечении между исследователями, политиками и заинтересованными сторонами отрасли, возникающие в результате достижений и развертывания технологий больших данных и искусственного интеллекта в образовании, показаны на рисунке 1.

Рис. 1. Современные разработки и будущие тенденции на стыке исследований, политики и промышленности, обусловленные большими данными и достижениями ИИ в образовании.

Конструктивные области среди заинтересованных сторон постепенно развиваются вместе с научными и технологическими разработками. Поэтому важно задуматься о долгосрочных прогнозах и проблемах. В следующих разделах освещаются новые проблемы и будущие направления больших данных и технологий искусственного интеллекта на стыке исследований в области образования, разработки политики и промышленности.

Большие данные и искусственный интеллект в образовании: исследования

Понимание индивидуальных различий имеет решающее значение для разработки педагогических инструментов, ориентированных на конкретных учащихся, и адаптации образования к индивидуальным потребностям на разных этапах. Интеллектуальные образовательные системы, использующие большие данные и методы искусственного интеллекта, способны собирать точные и подробные личные данные. Аналитика данных может выявить модели обучения учащихся и определить их конкретные потребности (Gobert and Sao Pedro, 2017; Mislevy et al., 2020). Следовательно, большие данные и ИИ могут реализовать индивидуальное обучение для достижения точного образования (Lu et al., 2018). Мы видим следующие новые тенденции, пробелы в исследованиях и противоречия в интеграции больших данных и ИИ в исследования в области образования, чтобы обеспечить глубокое и строгое понимание индивидуальных различий, которые можно использовать для персонализации обучения в режиме реального времени и в масштабе.

(1) Образование постепенно переходит от универсального подхода к точному обучению или персонализированному обучению (Lu et al., 2018; Цай и др., 2020). Универсальный подход был разработан для средних учащихся, в то время как точное обучение учитывает индивидуальные различия учащихся в их учебной среде, а также их стратегии обучения. Основная идея точного обучения аналогична «точной медицине», когда исследователи собирают большие данные для выявления закономерностей, характерных для конкретных пациентов, чтобы можно было настроить профилактику и лечение. Основываясь на анализе профилей и моделей обучения учащихся, точное обучение прогнозирует успеваемость учащихся и обеспечивает своевременные вмешательства для оптимизации обучения.Целью точного обучения является улучшение диагностики, прогнозирования, лечения и предотвращения результатов обучения (Lu et al., 2018). Современные пробелы в исследованиях, связанные с адаптивными инструментами и персонализированным образовательным опытом, препятствуют переходу к точному обучению. Необходимы адаптивные образовательные инструменты и гибкие системы обучения, чтобы приспособить взаимодействие отдельных учащихся, темп и прогресс в обучении, а также удовлетворить конкретные потребности отдельных учащихся, таких как учащиеся с ограниченными возможностями обучения (Xie et al., 2019; Завацкий-Рихтер и др., 2019). Следовательно, поскольку персонализированное обучение настраивается для разных людей, исследователи могут сосредоточиться на индивидуальном обучении, которое адаптируется к индивидуальным потребностям в режиме реального времени (Gobert and Sao Pedro, 2017; Lu et al., 2018).

(2) Фокус исследований по внедрению ИИ в образовании постепенно смещается с вычислительного фокуса, демонстрирующего варианты использования новых технологий, на когнитивный фокус, который включает в себя познание, например, восприятие (VanRullen, 2017), эмоции (Song et al. ., 2016) и когнитивное мышление (Bramley et al., 2017). Более того, он также переходит от одной области (например, предметной экспертизы или экспертных систем) к междисциплинарному подходу посредством сотрудничества (Spikol et al., 2018; Krouska et al., 2019) и передачи доменов (L’heureux). и др., 2017). Эти противоречивые сдвиги облегчают переход от знания неизвестного (получение понимания посредством рассуждений) к неизвестному неизвестному (выяснение скрытых значений и неизвестных результатов с помощью алгоритмов) (Абед Ибрагим и Фекете, 2019; Кутумису и Го, 2019).Другими словами, в традиционных экспертных системах и старом ИИ преобладало детерминированное обучение, направленное на дедуктивно-индуктивные рассуждения и механизмы логического вывода. Принимая во внимание, что сегодня динамическое и стохастическое обучение, результат которого предполагает некоторую случайность и неопределенность, постепенно становится тенденцией в современных методах машинного обучения.

(3) Формат машинно-генерируемых данных и цель алгоритмов машинного обучения должны быть тщательно разработаны. Существует заметный разрыв между теоретическим дизайном и его применимостью.Теоретическая модель необходима для разработки, интерпретации и проверки алгоритмов (Gobert et al., 2013; Hew et al., 2019). Результаты анализа данных и алгоритмически сгенерированные доказательства должны быть доведены до сведения педагогов и применяться с осторожностью. Например, усилия по алгоритмическому обнаружению психических состояний, таких как скука, разочарование и замешательство (Baker et al., 2010), должны поддерживаться операциональными определениями и конструкциями, которые были тщательно оценены. Кроме того, аффективные данные, собираемые системами ИИ, должны учитывать культурные различия в сочетании с контекстуальными факторами, наблюдениями учителей и мнениями учащихся (Yadegaridehkordi et al., 2019). Данные должны быть информативно и качественно сбалансированы, чтобы избежать неявных предубеждений, которые могут распространяться на алгоритмы, обученные на таких данных (Staats, 2016).

(4) При балансировании обучения, предоставляемого человеком, и обучения с помощью машин возникают этические и алгоритмические проблемы. Значительное влияние ИИ и современных технологий — это палка о двух концах (Khechine and Lakhal, 2018). С одной стороны, это облегчает использование и способствует прогрессу. С другой стороны, это может привести к предвзятости алгоритмов и потере некоторых важных навыков среди студентов, которые широко полагаются на технологии.Например, в творческом обучении или обучении, основанном на опыте, технологии могут даже стать препятствием для обучения, поскольку они могут помешать учащимся получить непосредственный опыт и участвовать в учебной деятельности (Cuthbertson et al., 2004). Надлежащий баланс между внедрением технологий и участием человека в различных образовательных контекстах станет проблемой в обозримом будущем. Тем не менее конвергенция человеческого и машинного обучения имеет потенциал для высокоэффективного преподавания и обучения, выходящего за рамки простой «суммы частей человеческого и искусственного интеллекта» (Тополь, 2019).

(5) Алгоритмическая предвзятость — еще один спорный вопрос (Obermeyer et al., 2019). Поскольку современные алгоритмы ИИ в значительной степени полагаются на данные, их производительность определяется исключительно данными. Алгоритмы адаптируются к присущим качественным и количественным характеристикам данных. Например, если данные несбалансированы и содержат непропорционально лучшую информацию об учащихся из общей популяции по сравнению с меньшинствами, алгоритмы могут давать систематические и повторяющиеся ошибки, ставящие меньшинства в невыгодное положение.Эти спорные вопросы необходимо решить до ее широкого внедрения в образовательную практику, поскольку дорог каждый ученик. Требуются более тщательные исследования и проверка в реальных условиях обучения, хотя работа в этом направлении уже ведется (Sao Pedro et al., 2013).

(6) Быстрое распространение технологий и неравенство возможностей для обучения вызвало большие споры. Из-за экспоненциального характера технологического прогресса, особенно революции больших данных и искусственного интеллекта, на горизонте появляются свежая парадигма и новый ландшафт обучения.Например, 10 лет назад, в 2010 году, элитным смартфоном был BlackBerry. Сегодня, 10 лет спустя, даже в странах Африки к югу от Сахары 75% населения имеют мобильные телефоны на несколько поколений старше (GSMA Intelligence, 2020). Таким образом, входные барьеры смещаются от технических требований к готовности и/или необходимости внедрения. Это было наглядно продемонстрировано во время пандемии COVID-19. Необходимость социального дистанцирования и непрерывного образования привела к развертыванию онлайн/электронного обучения в течение нескольких месяцев (Организация Объединенных Наций, 2020 г.).Соответственно создается огромное количество обучающих данных. Ожидается, что извлечение значимых закономерностей и обнаружение знаний из этих данных будет осуществляться с помощью методов аналитики обучения и искусственного интеллекта. Нынешняя культура обучения, опыт обучения и динамика в классе неизбежно меняются по мере того, как «мы живем алгоритмической жизнью» (Bucher, 2018). Таким образом, крайне необходимо принять надлежащие теории обучения педагогической психологии и поощрять наших учащихся быть активными участниками, а не пассивными получателями или просто отслеживаемыми объектами (Loftus and Madden, 2020).Например, в рамках конструкционистской концепции (Tsai, 2000) образование с использованием технологий или искусственного интеллекта может дать учащимся возможность узнать свою учебную деятельность и модели, предсказать возможные результаты обучения и стратегически регулировать свое учебное поведение (Koh et al. , 2014; Лофтус и Мэдден, 2020). С другой стороны, в эпоху информационного взрыва и революции в области искусственного интеллекта малообеспеченные студенты и развивающиеся страны действительно сталкиваются с более широким цифровым разрывом. Для сокращения неравенства и создания дополнительных возможностей развитие компетенций молодых людей представляется одним из наиболее многообещающих средств (ЮНЕСКО, 2015 г.).Между тем, зарубежная поддержка со стороны международных организаций, таких как Всемирный банк и ЮНЕСКО, необходима развивающимся странам в создании их коммуникационной инфраструктуры (например, аппаратного обеспечения, программного обеспечения, связи, электричества). Естественно, технология не заменит и не помешает человеческому обучению; скорее, разумное использование новых технологий облегчит передачу и приобретение знаний (Azevedo et al., 2019).

Всеобъемлющая тема вышеупомянутых направлений исследований заключается в том, что нам нужны теории когнитивной и педагогической психологии, чтобы направлять наше понимание индивидуального учащегося (и индивидуальных различий), чтобы разработать лучшие инструменты, алгоритмы и практики для персонализированного обучения.Возьмем, к примеру, VR (виртуальную реальность) или AR (дополненную реальность) как быстроразвивающуюся технологию для образования. В отрасли разработано множество различных типов приложений VR/AR (например, Google Expeditions с более чем 100 виртуальными полевыми поездками), но они, как правило, разрабатывались с учетом мнений отрасли (см. теориями и данными педагогической психологии о том, как учащиеся на самом деле учатся. Чтобы сделать VR/AR эффективными средствами обучения, мы должны отделить технологические особенности от человеческого опыта и способностей (т.г., познавательные, языковые, пространственные способности обучаемого; см. Li et al., 2020). Например, виртуальная реальность обеспечивает высококачественную трехмерную реальную виртуальную среду, а технологические инструменты построены на предположении, что трехмерный реализм позволяет учащемуся получить «перцептивную основу» во время обучения (например, имея доступ к визуальным, слуховым, тактильным ощущениям). ощущения как в реальном мире). Следуя теории «воплощенного познания» (Barsalou, 2008), мы должны ожидать, что обучение в виртуальной реальности даст лучшие результаты обучения по сравнению с традиционным обучением в классе.Однако эмпирические данные показывают, что существуют значительные индивидуальные различия в том, что одни учащиеся получают больше пользы от обучения в виртуальной реальности, чем другие. Возможно, людям с более высокими когнитивными и перцептивными способностями не нужна дополнительная зрительно-пространственная информация (предоставляемая в виртуальной реальности), чтобы преуспеть в обучении. В любом случае нам необходимо понять, как воплощенный опыт (обеспечиваемый технологией) взаимодействует с присущими различным учащимся способностями (а также с их предшествующими знаниями и опытом) для наилучшего применения соответствующей технологии в образовании.

Большие данные и искусственный интеллект в образовании: разработка политики

После революции, вызванной прорывами в области больших данных и технологий искусственного интеллекта, лица, определяющие политику, попытались сформулировать стратегии и политику в отношении того, как внедрить искусственный интеллект и новые технологии в начальное, среднее и высшее образование (Pedró et al., 2019). Чтобы должным образом интегрировать большие данные и искусственный интеллект в образовательную практику, необходимо преодолеть серьезные проблемы. Следующие три сегмента освещают соответствующие проблемы, пробелы и развивающиеся тенденции, связанные с политикой.

(1) В экономиках знаний, управляемых цифровыми технологиями, традиционные системы формального образования претерпевают радикальные изменения или даже смену парадигмы (Peters, 2018). Обучение на протяжении всей жизни быстро внедряется и реализуется с помощью онлайновых или проектных схем обучения, которые включают несколько способов обучения (Lenschow, 1998; Sharples, 2000; Field, 2001; Koper and Tattersall, 2004). Эта новая концепция непрерывного образования потребует микрокредитов или микростепеней для поддержания усилий учащихся (Manuel Moreno-Marcos et al., 2019). Необходимость изменения масштабов и роли образования станет очевидной уже в ближайшем будущем (Williams, 2019). Например, в ближайшие несколько лет в формальном образовании необходимо будет разработать новые методы обучения, взаимодействия и оценки для поддержки образования на протяжении всей жизни. Система должна быть основана на микрокредитах или микростепенях.

(2) Решения для интеграции результатов передовых исследований, инновационных учебных программ, основанных на теории, и новейших технологий в обучении студентов, безусловно, полезны и, возможно, даже готовы к внедрению.Тем не менее, существует очевидное расхождение между большим количеством учителей до и после работы и их готовностью поддерживать и внедрять эти новые технологии (Pedró et al., 2019). Учителя до начала работы больше знакомы с современными технологиями и, как правило, с большей готовностью их внедряют. Преподаватели, работающие без отрыва от работы, имеют больший практический опыт и, как правило, больше полагаются на него. Чтобы преодолеть этот разрыв, должны быть разработаны и предложены эффективные программы обучения учителей и программы непрерывного образования для поддержки внедрения этих новых технологий, чтобы их можно было реализовать с точностью (O’Donnell, 2008).Эта проблема может стать еще более актуальной в связи с затянувшимся периодом пандемии COVID-19.

(3) Необходима соответствующая законодательная база для защиты персональных данных от недобросовестного сбора, несанкционированного раскрытия, коммерческого использования и других злоупотреблений (Boyd and Crawford, 2012; Pardo and Siemens, 2014). Записи об образовании и личные данные очень конфиденциальны. Существуют значительные риски, связанные с образовательными профилями учащихся, записями и другими личными данными.В учебных заведениях должны быть приняты соответствующие меры безопасности. Провайдеры коммерческих образовательных систем активно используют как пробелы в законодательстве, так и скрытые каналы получения данных. Все большее число игроков отрасли внедряют бизнес-модели, ориентированные на данные (Geczy, 2018). Законодательные, регулирующие и правоохранительные органы играют жизненно важную роль как на национальном, так и на местном уровне. Уместно, чтобы правительства приняли, внедрили и обеспечили соблюдение законодательства и мер в области конфиденциальности и защиты персональных данных.При этом необходимо найти надлежащий баланс между желательным использованием персональных данных в образовательных целях и нежелательной коммерческой монетизацией и злоупотреблением персональными данными.

Большие данные и искусственный интеллект в образовании: промышленность

Поскольку научные и академические аспекты больших данных и ИИ в образовании имеют свои уникальные проблемы, то же касается и коммерциализации образовательных инструментов и систем (Renz et al., 2020). Многие страны пытались стимулировать рост, основанный на инновациях, путем расширения передачи технологий и развития сотрудничества между академическими кругами и промышленностью (Huggins and Thompson, 2015).В США это было инициировано законом Бэя-Доула (Mowery et al., 2001). Настоятельно рекомендуется налаживание взаимовыгодных и устойчивых партнерских отношений. Это облегчает передачу технологий и укрепляет связи между академическими кругами и индустрией образования. Есть несколько моментов, которые следует учитывать при подходе к сотрудничеству между академическими кругами и промышленностью. Важно, чтобы сотрудничество было взаимовыгодным. Следующие пункты подчеркивают пересекающиеся сферы выгод как для образовательной коммерции, так и для научных кругов.Они также выявляют существующие пробелы и перспективы на будущее.

(1) Коммерциализация интеллектуальных образовательных инструментов и систем, включающих последние научные и технологические достижения, может предоставить преподавателям инструменты для разработки более эффективных учебных планов, педагогических рамок, оценок и программ. Своевременный выпуск результатов образовательных исследований на коммерческих платформах желателен для поставщиков с точки зрения разработки, маркетинга и доходов (Renz and Hilbig, 2020). Внедрение новейших исследований позволяет прогрессивно разрабатывать коммерческие продукты и выделять их в маркетинговых целях.Это также потенциально может устранить значительный разрыв между тем, что знает и разрабатывает отрасль, и тем, что говорят академические исследования в отношении обучения студентов. Новые функции также можно соответствующим образом монетизировать, а значит, увеличить потоки доходов. Разрыв между доступностью последних исследований и их практическим внедрением замедляет прогресс и негативно влияет на коммерческих поставщиков. Жизнеспособным решением является более тесная согласованность и/или прямое сотрудничество между академическими кругами и промышленностью.

(2) Более широкий спектр коммерческих и бесплатных инструментов помогает поддерживать здоровую рыночную конкуренцию.Это также помогает избежать монополий и олигополий, которые душит инновации, ограничивают выбор и наносят ущерб рынкам образовательных инструментов. Некоторые хорошо зарекомендовавшие себя или бесплатные платформы (например, Moodle, LMS) могут продемонстрировать такой потенциал олигополий во время пандемии COVID-19. Благодаря большему количеству инструментов, доступных на рынке, преподаватели и ученые могут исследовать новые возможности для улучшения образования и исследований. Могут быть разработаны новые и более эффективные формы образования. Например, мультимодальные виртуальные образовательные среды имеют высокие потенциальные перспективы в будущем.Это среда, которая иначе была бы невозможна в обычных физических условиях (см. предыдущее обсуждение VR/AR). Расширение образовательных рынков и торговли неизбежно должно привести к увеличению ресурсов для финансирования исследований и разработок (Popenici and Kerr, 2017). Совместные исследовательские проекты, спонсируемые отраслью, должны обеспечивать поддержку и возможности для ученых в продвижении образовательных исследований. Как ни странно, во многих географических регионах наблюдается тенденция к сокращению совместных исследований.Чтобы обратить эту тенденцию вспять, желательно, чтобы ученые-исследователи и отраслевые практики активизировали свое взаимодействие посредством взаимных презентаций, образовательных программ и даже правительственных инициатив. Все три заинтересованные стороны (т. е. научные круги, промышленность и правительство) должны играть более активную роль.

(3) Профессиональное и практическое образование предоставляет многочисленные возможности для плодотворного сотрудничества между академическими кругами и промышленностью. В связи с изменением характера работы и ростом внедрения технологий растет потребность в радикальных изменениях в профессиональном образовании как для преподавателей, так и для учащихся (World Development and Report, 2019).Знания предметной области, предоставляемые учителями, выгодно дополняются учебной средой с помощью ИИ в академических кругах. Практические навыки совершенствуются в промышленных условиях благодаря практическому опыту и отзывам как преподавателей, так и технологических инструментов. Следовательно, учащиеся извлекают выгоду из приобретения знаний в предметной области и совершенствования своих навыков посредством взаимодействия с учителями и тренерами-людьми. В равной степени они получают пользу от приобретения практических навыков посредством взаимодействия с смоделированными и реальными технологическими средами.Для эффективного профессионального обучения требуются учителя и инструкторы для обучения людей, а также среда искусственного интеллекта и современные технологические инструменты для машинного обучения. Сотрудничество между академическими кругами и промышленностью, а также сбалансированные подходы к человеческому и машинному обучению актуальны для профессионального образования.

Обсуждение и заключение

Большие данные и искусственный интеллект обладают огромным потенциалом для реализации высокоэффективного обучения и преподавания. Они стимулируют новые исследовательские вопросы и проекты, используют инновационные технологии и инструменты для сбора и анализа данных и в конечном итоге становятся основной исследовательской парадигмой (Дэниел, 2019).Тем не менее, они все еще довольно новы и незнакомы многим исследователям и педагогам. В этой статье мы описали общую основу, основные концепции и недавний прогресс в этой быстрорастущей области. Наряду с возникающими возможностями мы выделили важные проблемы и новые тенденции использования больших данных и искусственного интеллекта в образовании, которые находят отражение в образовательных исследованиях, разработке политики и промышленности. В таблице 1 кратко представлены основные проблемы и возможные решения, связанные с большими данными и искусственным интеллектом в образовании.Таким образом, будущие исследования должны быть направлены на теоретическое точное обучение, включающее междисциплинарное применение и соответствующее использование образовательных технологий. Правительство должно посвятить себя поддержке обучения на протяжении всей жизни, предлагая программы обучения учителей и защищая личные данные. Что касается индустрии образования, то следует развивать взаимные и взаимовыгодные отношения для расширения сотрудничества академических кругов и индустрии.

Таблица 1. Основные проблемы и возможные решения для интеграции больших данных и искусственного интеллекта в образование.

Что касается будущего развития больших данных и искусственного интеллекта, мы выступаем за углубленный диалог между сторонниками «холодных» технологий и «теплого» человечества, чтобы пользователи технологий могли извлечь выгоду из их возможностей, а не видеть в них угрозу своим средства к существованию. Не менее важным вопросом является то, что чрезмерная зависимость от технологий может привести к недооценке роли человека в образовании. Помните об основополагающей роли школьного образования: школа является великим уравнителем, а также центральным агентом социализации.Нам необходимо лучше понять роль социальной и аффективной обработки (например, эмоций, мотивации) в дополнение к когнитивной обработке в успехах (или неудачах) обучения учащихся. В конце концов, человеческое обучение — это социальное поведение, и ряд ключевых областей нашего мозга запрограммированы на социальную активность (обсуждение см. в Li and Jeong, 2020).

По оценкам, примерно половина текущих рутинных работ может быть автоматизирована в ближайшем будущем (Frey and Osborne, 2017; World Development and Report, 2019).Однако работу учителя заменить было невозможно. Отношения учитель-ученик незаменимы в обучении учащихся и вдохновляют их на личностный рост (Roorda et al., 2011; Cheng and Tsai, 2019). С другой стороны, новые разработки в области технологий позволят нам собирать и анализировать крупномасштабные, мультимодальные и непрерывные данные в режиме реального времени. Такой основанный на данных и технологиях анализ поведения человека в реальном мире и смоделированной среде может помочь учителям в определении траекторий и моделей обучения учащихся, разработке соответствующих планов уроков и принятии эффективных стратегий обучения (Klašnja-Milicevic et al., 2017; Гирл и Лай, 2018). Это также может помочь учителям решать более сложные проблемы учащихся и развивать у учащихся навыки мышления более высокого порядка, освобождая учителей от их монотонных и рутинных задач (Li, 2007; Belpaeme et al., 2018). Следовательно, сейчас для нас крайне важно использовать ИИ и технологии и подготовить наших учителей и студентов к будущему обучению с использованием ИИ и технологий.

Внедрение больших данных и искусственного интеллекта в обучение и преподавание все еще находится в зачаточном состоянии и на данный момент ограничено технологическими проблемами и проблемами мышления; однако конвергенция достижений в области психологии, науки о данных и компьютерных наук открывает большие перспективы в революционных исследованиях в области образования, практике и промышленности.Мы надеемся, что последние достижения и будущие направления, представленные в этом документе, будут способствовать достижению нашей общей цели — помощи учащимся и учителям в достижении устойчивого развития.

Вклад авторов

Hlu написал первоначальный вариант рукописи. PG, HLa, JG и PL пересмотрели черновики и предоставили теоретическую основу. SY, HO, JB и RG предоставили материалы для первоначальной подготовки проекта рукописи. C-CT обеспечил теоретическую направленность, дизайн, предварительную обратную связь и контролировал исследование на протяжении всего исследования.Все авторы внесли свой вклад в статью и одобрили представленную версию.

Финансирование

Эта работа выполнена при финансовой поддержке Института передового опыта в области наук об обучении Национального тайваньского педагогического университета (NTNU) в рамках программы Центра исследований избранных областей в рамках проекта Higher Education Sprout Министерства образования (MOE) Тайваня.

Конфликт интересов

JG работал в компании Apprendis, LLC, Берлин.

Остальные авторы заявляют, что исследование проводилось при отсутствии каких-либо коммерческих или финансовых отношений, которые могли бы быть истолкованы как потенциальный конфликт интересов.

Ссылки

Абед Ибрагим, Л., и Фекете, И. (2019). Что машинное обучение может рассказать нам о роли языкового доминирования в диагностической точности заданий на немецкое лакмусовое повторение слов и предложений. Перед. Психол. 9:2757. doi: 10.3389/fpsyg.2018.02757

Полнотекстовая перекрестная ссылка | Академия Google

Алдова, Х., Аль-Самарраи, Х., и Фаузи, В. М. (2019). Образовательный анализ данных и аналитика обучения для высшего образования 21 века: обзор и синтез. Телемат. Поставить в известность. 37, 13–49. doi: 10.1016/j.tele.2019.01.007

Полнотекстовая перекрестная ссылка | Академия Google

Анвар, С., Баску, Н. А., Менексе, М., и Кардгар, А. (2019). Систематический обзор исследований по образовательной робототехнике. J. Pre-College Eng. Образовательный Рез. (J-PEER) 9, 19–42. дои: 10.7771/2157-9288.1223

Реферат PubMed | Полный текст перекрестной ссылки | Академия Google

Азеведо, Дж.P.W.D., Crawford, M.F., Nayar, R., Rogers, F.H., Barron Rodriguez, M.R., Ding, E.Y.Z., et al. (2019). Преодоление бедности в обучении: что для этого потребуется? Вашингтон, округ Колумбия: Всемирный банк.

Академия Google

Бейкер, Р. С. Дж. Д., Д’Мелло, С. К., Родриго, М. М. Т., и Грессер, А. С. (2010). Лучше быть разочарованным, чем скучать: частота, постоянство и влияние когнитивно-аффективных состояний учащихся во время взаимодействия с тремя различными компьютерными учебными средами. Междунар. J. Human-Comp. Стад. 68, 223–241. doi: 10.1016/j.ijhcs.2009.12.003

Полнотекстовая перекрестная ссылка | Академия Google

Барсалу, LW (2008). «Заземление символических операций в модальных системах мозга», в Embodied Grounding: Social, Cognitive, Affective, and Neuroscientific Approaches , eds GR Semin and ER Smith (Cambridge: Cambridge University Press), 9–42. дои: 10.1017/cbo9780511805837.002

Полнотекстовая перекрестная ссылка | Академия Google

Беккер, С.А., Камминс, М., Дэвис, А., Фриман, А., Холл, К.Г., и Анантанараянан, В. (2017). Отчет NMC Horizon: выпуск для высших учебных заведений за 2017 г. Остин, Техас: Консорциум новых медиа.

Академия Google

Белпэме, Т., Кеннеди, Дж., Рамачандран, А., Скасселлати, Б., и Танака, Ф. (2018). Социальные роботы для образования: обзор. науч. Робот. 3:eaat5954. doi: 10.1126/scirobotics.aat5954

Полнотекстовая перекрестная ссылка | Академия Google

Берейтер, К.(2002). Образование и УМ в век знаний. Махва, Нью-Джерси: LEA.

Академия Google

Бойд, Д., и Кроуфорд, К. (2012). Критические вопросы для больших данных: провокации культурного, технологического и научного феномена. Информ. коммун. соц. 15, 662–679. дои: 10.1080/1369118x.2012.678878

Полнотекстовая перекрестная ссылка | Академия Google

Брэмли, Н. Р., Даян, П., Гриффитс, Т. Л., и Лагнадо, Д. А. (2017). Формализация корабля Нейрата: приблизительные алгоритмы онлайн-каузального обучения. Психолог. Ред. 124, 301–338. doi: 10.1037/rev0000061

Реферат PubMed | Полный текст перекрестной ссылки | Академия Google

Бухер, Т. (2018). Если Тогда: Алгоритмическая сила и политика. Нью-Йорк, штат Нью-Йорк: Издательство Оксфордского университета.

Академия Google

Карбонелл, Дж. Р. (1970). ИИ в CAI: подход искусственного интеллекта к компьютерному обучению. IEEE Trans. Система человек-машина. 11, 190–202. doi: 10.1109/TMMS.1970.299942

Полнотекстовая перекрестная ссылка | Академия Google

Чен, К.П. и Чжан, К.Ю. (2014). Приложения с интенсивным использованием данных, проблемы, методы и технологии: обзор больших данных. Информ. науч. 275, 314–347. doi: 10.1016/j.ins.2014.01.015

Полнотекстовая перекрестная ссылка | Академия Google

Чен Л., Чен П. и Лин З. (2020). Искусственный интеллект в образовании: обзор. Доступ IEEE 8, 75264–75278. doi: 10.1109/ACCESS.2020.2988510

Полнотекстовая перекрестная ссылка | Академия Google

Чен, Н.-С., Инь, К., Исайяс П. и Псотка Дж. (2020). Образовательные большие данные: извлечение смысла из данных для умного образования. Взаимодействие. Учить. Окружающая среда. 28, 142–147. дои: 10.1080/10494820.2019.1635395

Полнотекстовая перекрестная ссылка | Академия Google

Ченг, К.-Х., и Цай, К.-К. (2019). Тематическое исследование иммерсивных виртуальных экскурсий в начальных классах: учебный опыт учащихся и взаимодействие учителя и ученика. Комп. Образовательный 140:103600. doi: 10.1016/j.compedu.2019.103600

Полнотекстовая перекрестная ссылка | Академия Google

Чунг, М. В.-Л., и Джак, С. (2018). Проблемы анализа больших данных и приложений в психологии. Zeitschrift Fur Psychol. Дж. Психол. 226, 209–211. дои: 10.1027/2151-2604/a000348

Полнотекстовая перекрестная ссылка | Академия Google

Катбертсон, Б., Соча, Т.Л., и Поттер, Т.Г. (2004). Палка о двух концах: критические размышления о традиционных и современных технологиях обучения на открытом воздухе. Дж. Доп. Образовательный Учиться на открытом воздухе. 4, 133–144. дои: 10.1080/14729670485200491

Полнотекстовая перекрестная ссылка | Академия Google

Кутумису, М., и Го, К. (2019). Использование тематического моделирования для извлечения знаний учителей о вычислительном мышлении из их размышлений о программировании. IEEE Trans. Образовательный 62, 325–332. doi: 10.1109/te.2019.2925253

Полнотекстовая перекрестная ссылка | Академия Google

Дэниел, Б. (2015). Большие данные и аналитика в высшем образовании: возможности и вызовы. руб. Дж. Образ. Технол. 46, 904–920. doi: 10.1111/bjet.12230

Полнотекстовая перекрестная ссылка | Академия Google

Дэниел, Б.К. (2019). Большие данные и наука о данных: критический обзор проблем образовательных исследований. руб. Дж. Образ. Технол. 50, 101–113. doi: 10.1111/bjet.12595

Полнотекстовая перекрестная ссылка | Академия Google

Дейкс, Дж. (2013). Oracle: большие данные для предприятия. Белая книга Oracle . Редвуд-Шорс, Калифорния: Oracle Corporation.

Академия Google

Фрей, К.Б., и Осборн, Массачусетс (2017). Будущее занятости: насколько рабочие места подвержены компьютеризации? Техн. Прогноз. соц. Изменение 114, 254–280. doi: 10.1016/j.techfore.2016.08.019

Полнотекстовая перекрестная ссылка | Академия Google

Гечи, П. (2014). Характеристики больших данных. Макротема Ред. 3, 94–104.

Академия Google

Гечи, П. (2015). Управление большими данными: реляционная структура. Изм. Автобус. Финансовый стад. 6, 21–30.

Академия Google

Гечи, П. (2018). Бизнес-модели, ориентированные на данные: получение конкурентного преимущества. Глобал Дж. Автобус. Рез. 12, 25–36.

Академия Google

Гирл, М. Дж., и Лай, Х. (2018). Использование автоматического создания элементов для создания решений и обоснований для компьютеризированного формативного тестирования. Заяв. Психол. Измерение 42, 42–57. дои: 10.1177/0146621617726788

Реферат PubMed | Полный текст перекрестной ссылки | Академия Google

Гобер, Дж., Сан-Педро, М., Разиуддин, Дж., и Бейкер, Р.С. (2013). От файлов журналов до показателей оценки для научных исследований с использованием интеллектуального анализа образовательных данных. Дж. Учись. науч. 22, 521–563. дои: 10.1080/10508406.2013.837391

Полнотекстовая перекрестная ссылка | Академия Google

Гоберт, Дж. Д., и Сан-Педро, Массачусетс (2017). «Цифровая среда оценки для научных исследований», в The Wiley Handbook of Cognition and Assessment , eds AA Rupp и JP Leighton (West Sussex: Frameworks, Methodologies, and Applications), 508–534.дои: 10.1002/9781118956588.ch31

Полнотекстовая перекрестная ссылка | Академия Google

Гоберт, Дж. Д., Сан-Педро, Массачусетс, Бейкер, Р. С., Тото, Э., и Монтальво, О. (2012). Использование образовательного интеллектуального анализа данных для оценки эффективности научных исследований в реальном времени в микромирах. Дж. Образование. Данные мин. 4, 104–143. doi: 10.5281/zenodo.3554645

Полнотекстовая перекрестная ссылка | Академия Google

Гоксель, Н., и Бозкурт, А. (2019). «Искусственный интеллект в образовании: текущие идеи и перспективы на будущее», в Справочнике по исследованиям в области обучения в эпоху трансгуманизма , под редакцией С.Sisman-Ugur and G. Kurubacak (Hershey, PA: IGI Global), 224–236 doi: 10.4018/978-1-5225-8431-5.ch014

Полнотекстовая перекрестная ссылка | Академия Google

Graesser, A.C., Chipman, P., Haynes, B.C., and Olney, A. (2005). AutoTutor: интеллектуальная система обучения со смешанной инициативой диалога. IEEE Trans. Образовательный 48, 612–618. doi: 10.1109/te.2005.856149

Полнотекстовая перекрестная ссылка | Академия Google

GSMA Intelligence (2020). Мобильная экономика 2020 .Лондон: Ассоциация GSM.

Академия Google

Хью, К.Ф., Лан, М., Тан, Ю., Цзя, К. и Ло, С.К. (2019). Где находится «теория» в области исследования образовательных технологий? руб. Дж. Образ. Технол. 50, 956–971. doi: 10.1111/bjet.12770

Полнотекстовая перекрестная ссылка | Академия Google

Хинохо-Лусена, Ф.Х., Аснар-Диас, И., Касерес-Рече, член парламента, и Ромеро-Родригес, Х.М. (2019). Искусственный интеллект в высшем образовании: библиометрическое исследование его влияния на научную литературу. Учеб. науч. 9:51. doi: 10.3390/educsci51

Полнотекстовая перекрестная ссылка | Академия Google

Хуанг, А. Ю., Лу, О. Х., Хуанг, Дж. К., Инь, К., и Ян, С. Дж. (2020). Прогнозирование академической успеваемости учащихся с использованием образовательных больших данных и аналитики обучения: оценка методов классификации и журналов обучения. Междунар. Учить. Окружающая среда. 28, 206–230. дои: 10.1080/10494820.2019.1636086

Полнотекстовая перекрестная ссылка | Академия Google

Хаггинс, Р.и Томпсон, П. (2015). Предпринимательство, инновации и региональный рост: сетевая теория. Маленький автобус. Экон. 45, 103–128. doi: 10.1007/s11187-015-9643-3

Полнотекстовая перекрестная ссылка | Академия Google

Хванг Г.-Дж., Спикол Д. и Ли К.-К. (2018). Гостевая редакция: тренды и проблемы исследований в области аналитики обучения и больших данных в образовании. Учеб. Технол. соц. 21, 134–136.

Академия Google

Джагадиш Х.В., Герке Дж., Лабринидис А., Papakonstantinou, Y., Patel, J.M., Ramakrishnan, R., et al. (2014). Большие данные и связанные с ними технические проблемы. Комм. АКМ. 57, 86–94. дои: 10.1145/2611567

Полнотекстовая перекрестная ссылка | Академия Google

Джонсон, Л., Смит, Р., Уиллис, Х., Левин, А., и Хейвуд, К. (2011). Отчет Горизонта за 2011 год. Остин, Техас: Консорциум новых медиа.

Академия Google

Хечин, Х., и Лахал, С. (2018). Технологии как палка о двух концах: от прогнозирования поведения с помощью UTAUT до результатов учащихся с учетом личностных характеристик. Ж. Информ. Технол. Образовательный Рез. 17, 63–102. дои: 10.28945/4022

Полнотекстовая перекрестная ссылка | Академия Google

Клашня-Миличевич, А., Иванович, М., и Будимац, З. (2017). Наука о данных в образовании: большие данные и аналитика обучения. Вычисл. Заявка. англ. Образовательный 25, 1066–1078. doi: 10.1002/cae.21844

Полнотекстовая перекрестная ссылка | Академия Google

Кох, Дж. Х. Л., Чай, К. С., и Цай, К. С. (2014). Демографические факторы, конструкции TPACK и восприятие учителями конструктивистско-ориентированного TPACK. Дж. Образование. Технол. соц. 17, 185–196.

Академия Google

Копер, Р., и Таттерсалл, К. (2004). Новые направления непрерывного обучения с использованием сетевых технологий. руб. Дж. Образ. Технол. 35, 689–700. doi: 10.1111/j.1467-8535.2004.00427.x

Полнотекстовая перекрестная ссылка | Академия Google

Кроушка А., Труссас К. и Вирвоу М. (2019). SN-Learning: предварительное исследование, выходящее за рамки электронного обучения, и оценка его приложений с использованием структуры EV-SNL. Дж. Комп. Жопа. Учить. 35, 168–177. doi: 10.1111/jcal.12330

Полнотекстовая перекрестная ссылка | Академия Google

Лэйни, Д. (2001). Управление 3D-данными: управление объемом, скоростью и разнообразием данных. META Group Res. Примечание 6, 70–73.

Академия Google

Леншоу, Р. Дж. (1998). От преподавания к обучению: смена парадигмы инженерного образования и обучения на протяжении всей жизни. евро. Дж. Инж. Образовательный 23, 155–161. дои: 10.1080/03043799808923494

Полнотекстовая перекрестная ссылка | Академия Google

Леро, А., Гролингер, К., Эльямани, Х.Ф., и Капретц, М.А. (2017). Машинное обучение с большими данными: проблемы и подходы. Доступ IEEE 5, 7776–7797. doi: 10.1109/ACCESS.2017.2696365

Полнотекстовая перекрестная ссылка | Академия Google

Ли, Х., Гоберт, Дж., и Диклер, Р. (2019). «Оценка переноса опроса на основе лесов: что держится и долго ли он длится?», Искусственный интеллект в образовании , редакторы С. Исотани, Э. Миллан, А. Оган, П. Гастингс, Б. Макларен и Р.Лакин (Чам: Спрингер), 163–168. дои: 10.1007/978-3-030-23207-8_31

Полнотекстовая перекрестная ссылка | Академия Google

Ли, П., Лего, Дж., Клиппель, А., и Чжао, Дж. (2020). Виртуальная реальность для обучения студентов: понимание индивидуальных различий. Гул. Поведение Мозг 1, 28–36. doi: 10.37716/HBAB.2020010105

Полнотекстовая перекрестная ссылка | Академия Google

Ли, X. (2007). Интеллектуальное онлайн-обучение с поддержкой агентов. дек. Дж. Инновация. Образовательный 5, 311–331.doi: 10.1111/j.1540-4609.2007.00143.x

Полнотекстовая перекрестная ссылка | Академия Google

Лофтус, М., и Мэдден, М. Г. (2020). Педагогика данных и искусственный интеллект для субъективации студентов. Научить. Высшее образование. 25, 456–475. дои: 10.1080/13562517.2020.1748593

Полнотекстовая перекрестная ссылка | Академия Google

Лонг, П., и Сименс, Г. (2011). Проникая сквозь туман: аналитика в обучении и образовании. Учеб. Ред. 46, 31–40. дои: 10.1007/978-3-319-38956-1_4

Полнотекстовая перекрестная ссылка | Академия Google

Lu, O.H.T., Huang, A.Y.Q., Huang, JCH, Lin, A.J.Q., Ogata, H., and Yang, SJH (2018). Применение аналитики обучения для раннего прогнозирования успеваемости учащихся в условиях смешанного обучения. Учеб. Технол. соц. 21, 220–232.

Академия Google

Macfadyen, LP (2017). Преодоление барьеров на пути к образовательной аналитике: как могут помочь системное мышление и прагматизм. Учеб. Технол. 57, 31–39.

Академия Google

Малик Г., Тайал Д. К. и Видж С. (2019). «Анализ роли искусственного интеллекта в образовании и обучении», в «Недавние открытия в области интеллектуальных вычислительных технологий». Достижения в области интеллектуальных систем и вычислений , редакторы П. Са, С. Бакши, И. Хатзилигероудис и М. Саху (Сингапур: Springer), 407–417.

Академия Google

Мануэль Морено-Маркос, П., Аларио-Ойос, К., Муньос-Мерино, П.Дж., и Дельгадо Клоос, К. (2019). Прогнозирование в МООК: обзор и направления будущих исследований. IEEE Trans. Учить. Технол. 12, 384–401. doi: 10.1109/TLT.2018.2856808

Полнотекстовая перекрестная ссылка | Академия Google

Маньика Дж., Чуй М., Браун Б., Бугин Дж., Доббс Р., Роксбург К. и соавт. (2011). Большие данные: следующий рубеж инноваций, конкуренции и производительности. Нью-Йорк, штат Нью-Йорк: Глобальный институт McKinsey.

Академия Google

Майер-Шенбергер, В.и Цукьер, К. (2013). Большие данные: революция, которая изменит то, как мы живем, работаем и думаем. Бостон, Массачусетс: Houghton Mifflin Harcourt.

Академия Google

Мислеви, Р. Дж., Ян, Д., Гоберт, Дж., и Сан-Педро, М. (2020). «Автоматизированная оценка в интеллектуальных системах обучения», в Справочник по автоматизированной оценке , под ред. Д. Ян, А. А. Рупп и П. В. Фольц (Лондон: Чепмен и Холл / CRC), 403–422. дои: 10.1201/9781351264808-22

Полнотекстовая перекрестная ссылка | Академия Google

Мувери, Д.C., Нельсон Р.Р., Сампат Б.Н. и Зиедонис А.А. (2001). Рост патентования и лицензирования университетами США: оценка последствий закона Бэя-Доула 1980 г. Рез. пол. 30, 99–119. дои: 10.1515/9780804796361-008

Полнотекстовая перекрестная ссылка | Академия Google

Най, Б. Д. (2015). Интеллектуальные системы обучения в развивающихся странах и для них: обзор тенденций и подходов к образовательным технологиям в глобальном контексте. Междунар. Дж. Ст. Интел.Образовательный 25, 177–203. doi: 10.1007/s40593-014-0028-6

Полнотекстовая перекрестная ссылка | Академия Google

Обермейер З., Пауэрс Б., Фогели К. и Маллайнатан С. (2019). Анализ расовых предубеждений в алгоритме, используемом для управления здоровьем населения. Наука 366, 447–453. doi: 10.1126/science.aax2342

Реферат PubMed | Полный текст перекрестной ссылки | Академия Google

О’Доннелл, К. (2008). Определение, осмысление и измерение точности реализации и ее взаимосвязи с результатами исследования вмешательства в учебную программу K-12. Рев. Образование. Рез. 78, 33–84. дои: 10.3102/0034654307313793

Полнотекстовая перекрестная ссылка | Академия Google

Папамициу, З., и Экономидес, А. А. (2014). Аналитика обучения и интеллектуальный анализ образовательных данных на практике: систематический обзор литературы по эмпирическим данным. Учеб. Технол. соц. 17, 49–64.

Академия Google

Пардо, А., и Сименс, Г. (2014). Принципы этики и конфиденциальности для обучения аналитике. руб. Дж. Образ. Технол. 45, 438–450. doi: 10.1111/bjet.12152

Полнотекстовая перекрестная ссылка | Академия Google

Педро Ф., Субоса М., Ривас А. и Вальверде П. (2019). Искусственный интеллект в образовании: вызовы и возможности для устойчивого развития. Париж: ЮНЕСКО.

Академия Google

Питерс, Массачусетс (2018). Глубокое обучение, образование и завершающий этап автоматизации. Учеб. Фил. Теория 50, 549–553. дои: 10.1080/00131857.2017.1348928

Полнотекстовая перекрестная ссылка | Академия Google

Попеничи, С.А. и Керр С. (2017). Изучение влияния искусственного интеллекта на преподавание и обучение в высших учебных заведениях. Рез. Практика. Технол. Расширенное обучение. 12:22. doi: 10.1186/s41039-017-0062-8

Реферат PubMed | Полный текст перекрестной ссылки | Академия Google

Кадир, Б., Чен, Н.-С., и Исайяс, П. (2020). Анализ образовательных целей, проблем и методов, используемых в образовательных исследованиях больших данных с 2010 по 2018 год. Int. Учить. Окружающая среда. 1–17. дои: 10.1080/10494820.2020.1712427

Полнотекстовая перекрестная ссылка | Академия Google

Ренц, А., и Хилбиг, Р. (2020). Предпосылки для использования искусственного интеллекта в дополнительном образовании: выявление драйверов, барьеров и бизнес-моделей образовательных технологических компаний. Междунар. Дж. Образ. Технол. Высшее образование. 17:14. doi: 10.1186/s41239-020-00193-3

Полнотекстовая перекрестная ссылка | Академия Google

Ренц А., Кришнараджа С. и Гронау Э. (2020). Демистификация искусственного интеллекта в образовании — сколько на самом деле ИИ в образовательных технологиях? Междунар.Дж. Учись. Анальный. Изобразительное искусство. Интел. Образовательный (ИДЖАЙ). 2, 4–30. дои: 10.3991/ijai.v2i1.12675

Полнотекстовая перекрестная ссылка | Академия Google

Рурда, Д.Л., Кумен, Х.М.Ю., Спилт, Дж.Л., и Оорт, Ф.Дж. (2011). Влияние аффективных отношений между учителем и учеником на вовлеченность и успеваемость учащихся в школе: метааналитический подход. Рев. Образование. Рез. 81, 493–529. дои: 10.3102/0034654311421793

Полнотекстовая перекрестная ссылка | Академия Google

Сан-Педро, М., Бейкер Р. и Гоберт Дж. (2013). «Что различные виды стратификации могут показать об обобщаемости моделей оценки навыков на основе данных», в Proceedings of the 3rd Conference on Learning Analytics and Knowledge (Leuven), 190–194.

Академия Google

Шрок М., Шокли Р., Смарт Дж., Ромеро-Моралес Д. и Туфано П. (2012). Аналитика: реальное использование больших данных. Глобальная шина IBM. Серв. 12, 1–20. дои: 10.1002/9781119204183.Ч2

Полнотекстовая перекрестная ссылка | Академия Google

Шарплс, М. (2000). Дизайн персональных мобильных технологий для непрерывного обучения. Комп. Образовательный 34, 177–193. doi: 10.1016/s0360-1315(99)00044-5

Полнотекстовая перекрестная ссылка | Академия Google

Смутный П. и Шрейберова П. (2020). Чат-боты для обучения: обзор обучающих чат-ботов для мессенджера facebook. Комп. Образовательный 151:103862. doi: 10.1016/j.compedu.2020.103862

Полнотекстовая перекрестная ссылка | Академия Google

Зондерлунд, А.Л., Хьюз Э. и Смит Дж. (2019). Эффективность вмешательств по аналитике обучения в высшем образовании: систематический обзор. руб. Дж. Образ. Технол. 50, 2594–2618. doi: 10.1111/bjet.12720

Полнотекстовая перекрестная ссылка | Академия Google

Сонг, Ю., Дай, X.-Y., и Ван, Дж. (2016). Не все эмоции одинаковы: экспрессивное поведение сетевой публики в социальной сети Китая. Комп. Гум. Поведение 60, 525–533. doi: 10.1016/j.chb.2016.02.086

Полнотекстовая перекрестная ссылка | Академия Google

Спикол, д., Руффальди Э., Дабизиас Г. и Чукурова М. (2018). Контролируемое машинное обучение в аналитике мультимодального обучения для оценки успеха в проектном обучении. Дж. Комп. Жопа. Учить. 34, 366–377. doi: 10.1111/jcal.12263

Полнотекстовая перекрестная ссылка | Академия Google

Старчич, А.И. (2019). Обучение человека и аналитика обучения в эпоху искусственного интеллекта. руб. Дж. Образ. Технол. 50, 2974–2976. doi: 10.1111/bjet.12879

Полнотекстовая перекрестная ссылка | Академия Google

Международный форум обучающих наук (2019 г.). Международный форум по наукам об обучении: международные тенденции использования искусственного интеллекта и больших данных в науках об обучении. Тайбэй: Тайваньский национальный педагогический университет.

Академия Google

Toh, L.P.E., Causo, A., Tzuo, P.W., Chen, I.M., and Yeo, S.H. (2016). Обзор использования роботов в образовании и у детей младшего возраста. Дж. Образование. Технол. соц. 19, 148–163.

Академия Google

Цай, CC (2000). Взаимосвязь между научными эпистемологическими убеждениями студентов и представлениями о конструктивистской среде обучения. Учеб. Рез. 42, 193–205. дои: 10.1080/001318800363836

Полнотекстовая перекрестная ссылка | Академия Google

Tsai, S.C., Chen, C.H., Shiao, Y.T., Ciou, J.S., and Wu, T.N. (2020). Точное обучение со статистическим обучением и глубоким обучением: пример из Тайваня. Междунар. Дж. Образ. Технол. Высшее образование. 17, 1–13. doi: 10.1186/s41239-020-00186-2

Полнотекстовая перекрестная ссылка | Академия Google

ЮНЕСКО (2015 г.). SDG4-Education 2030, Инчхонская декларация (ID) и Рамочная программа действий.Для достижения цели 4 в области устойчивого развития «Обеспечение инклюзивного и справедливого качественного образования и содействие возможностям обучения на протяжении всей жизни для всех», ED-2016/WS/28. Лондон: ЮНЕСКО

Академия Google

ООН (2020). Аналитическая записка: образование во время Covid-19 и после него. Нью-Йорк, штат Нью-Йорк: Организация Объединенных Наций

Академия Google

Виберг О., Хатакка М., Бельтер О. и Мавруди А. (2018). Современный ландшафт аналитики обучения в высшем образовании. Вычисл. Человеческое поведение. 89, 98–110. doi: 10.1016/j.chb.2018.07.027

Полнотекстовая перекрестная ссылка | Академия Google

Уильямс, П. (2019). Означает ли компетентностное образование с блокчейном новую миссию для университетов? Дж. Высшее образование. пол. Управление 41, 104–117. дои: 10.1080/1360080x.2018.1520491

Полнотекстовая перекрестная ссылка | Академия Google

Мировое развитие и отчет (2019 г.). Изменение характера работы. Вашингтон, округ Колумбия: Всемирный банк/Международный банк реконструкции и развития.

Академия Google

Се, Х., Чу, Х.-К., Хван, Г.-Дж., и Ван, К.-К. (2019). Тенденции и развитие адаптивного/персонализированного обучения с использованием технологий: систематический обзор журнальных публикаций с 2007 по 2017 год. Comp. Образовательный 140:103599. doi: 10.1016/j.compedu.2019.103599

Полнотекстовая перекрестная ссылка | Академия Google

Yadegaridehkordi, E., Noor, N.F.B.M., Ayub, M.N.B., Affal, H.B., and Hussin, N.B. (2019). Аффективные вычисления в образовании: систематический обзор и будущие исследования. Комп. Образовательный 142:103649. doi: 10.1016/j.compedu.2019.103649

Полнотекстовая перекрестная ссылка | Академия Google

Яркони, Т., и Вестфолл, Дж. (2017). Выбор предсказания вместо объяснения в психологии: уроки машинного обучения. Перспектива. Психол. науч. 12, 11:00–11:22. дои: 10.1177/17456693393

Реферат PubMed | Полный текст перекрестной ссылки | Академия Google

Завацки-Рихтер, О., Марин, В.И., Бонд, М., и Гувернёр, Ф. (2019). Систематический обзор исследований по применению искусственного интеллекта в высшем образовании: где преподаватели? Междунар.Дж. Образ. Технол. Высшее образование. 16:39. doi: 10.1186/s41239-019-0171-0

Полнотекстовая перекрестная ссылка | Академия Google

5 прогнозов экспертов на 2020-2025 годы

3. Специалисты по данным и CDO будут востребованы

Должности Data Scientist и Chief Data Officers (CDO) относительно новые, но потребность в этих специалистах на рынке труда уже высока. Поскольку объемы данных продолжают расти, разрыв между потребностью и доступностью специалистов по данным уже велик.

В 2019 году КПМГ опросила 3 600 ИТ-директоров и технических руководителей из 108 стран и выяснила, что 67 % из них боролись с нехваткой навыков (которая была рекордно высокой с 2008 года). и ИИ.

Неудивительно, что сегодня специалисты по обработке и анализу данных входят в число самых быстрорастущих профессий наряду с инженерами по машинному обучению и инженерами по работе с большими данными. Большие данные бесполезны без анализа, а специалисты по данным — это те специалисты, которые собирают и анализируют данные с помощью инструментов аналитики и отчетности, превращая их в действенные идеи.

Чтобы считаться хорошим специалистом по данным, нужно иметь глубокие знания:

  • Платформы данных и инструменты
  • Языки программирования
  • Алгоритмы машинного обучения
  • Методы манипулирования данными, такие как создание конвейеров данных, управление процессами ETL и подготовка данных для анализа

Стремясь улучшить свою деятельность и получить конкурентное преимущество, предприятия готовы платить более высокую заработную плату таким талантам. Это делает будущее для специалистов по обработке и анализу данных светлым.

Кроме того, в качестве дополнительной попытки преодолеть разрыв в навыках предприятия теперь также развивают специалистов по данным внутри компаний. Этим профессионалам, которых называют гражданскими учеными по данным, не привыкать создавать продвинутые аналитические модели, но они занимают положение за пределами области аналитики как таковой. Однако с помощью технологий они могут выполнять тяжелую обработку данных, не имея степени в области науки о данных.

А вот с ролью директора по данным ситуация неясна.CDO — это руководитель уровня C, отвечающий за доступность, целостность и безопасность данных в компании. По мере того, как все больше владельцев бизнеса осознают важность этой роли, наем CDO становится нормой: согласно исследованию Big Data and AI Executive Survey 2019, проведенному NewVantage Partners, 67,9% крупных компаний уже имеют CDO.

Тем не менее, положение CDO остается нечетким, особенно с точки зрения обязанностей или, если быть более точным, того, как эти обязанности должны быть разделены между CDO, специалистами по данным и ИТ-директорами.Это одна из ролей, которая не может быть универсальной, но зависит от бизнес-потребностей конкретных компаний, а также от их цифровой зрелости. Следовательно, позиция CDO будет подвергаться значительной реструктуризации и развиваться вместе с миром, который все больше будет зависеть от данных.

Что такое аналитика больших данных и почему это важно?

Что такое аналитика больших данных?

Аналитика больших данных — это часто сложный процесс изучения больших данных для выявления информации, такой как скрытые закономерности, корреляции, рыночные тенденции и предпочтения клиентов, которые могут помочь организациям принимать обоснованные бизнес-решения.

В широком смысле технологии и методы анализа данных дают организациям возможность анализировать наборы данных и собирать новую информацию. Запросы бизнес-аналитики (BI) отвечают на основные вопросы о бизнес-операциях и производительности.

Аналитика больших данных — это форма расширенной аналитики, которая включает в себя сложные приложения с такими элементами, как прогностические модели, статистические алгоритмы и анализ «что, если», основанный на аналитических системах.

Почему важна аналитика больших данных?

Организации могут использовать системы и программное обеспечение для анализа больших данных для принятия решений на основе данных, которые могут улучшить результаты, связанные с бизнесом.Преимущества могут включать в себя более эффективный маркетинг, новые возможности получения дохода, персонализацию клиентов и повышение операционной эффективности. При эффективной стратегии эти преимущества могут обеспечить конкурентные преимущества перед конкурентами.

Как работает аналитика больших данных?

Аналитики данных, специалисты по данным, специалисты по прогнозному моделированию, статистики и другие специалисты в области аналитики собирают, обрабатывают, очищают и анализируют растущие объемы структурированных данных о транзакциях, а также другие формы данных, не используемые обычными программами бизнес-аналитики и аналитики.

Вот обзор четырех этапов процесса анализа больших данных:

  1. Специалисты по данным собирают данные из различных источников. Часто это смесь полуструктурированных и неструктурированных данных. Хотя каждая организация будет использовать разные потоки данных, некоторые общие источники включают:
  • интернет поток кликов данные;
  • логов веб-сервера;
  • облачное приложение;
  • мобильных приложений;
  • контент в социальных сетях;
  • текст из электронных писем клиентов и ответов на опросы;
  • запись мобильного телефона; и
  • машинных данных, полученных датчиками, подключенными к Интернету вещей (IoT).
  1. Данные подготовлены и обработаны . После того, как данные собраны и сохранены в хранилище данных или озере данных, специалисты по данным должны организовать, настроить и правильно разделить данные для аналитических запросов. Тщательная подготовка и обработка данных обеспечивают более высокую производительность аналитических запросов.
  2. Данные очищены для улучшения качества. Специалисты по данным очищают данные с помощью инструментов сценариев или программного обеспечения для контроля качества данных. Они ищут любые ошибки или несоответствия, такие как дублирование или ошибки форматирования, а также упорядочивают и упорядочивают данные.
  3. Собранные, обработанные и очищенные данные проанализированы с помощью аналитического программного обеспечения. Сюда входят инструменты для:
  • интеллектуальный анализ данных, который просеивает наборы данных в поисках закономерностей и взаимосвязей
  • прогнозная аналитика, которая создает модели для прогнозирования поведения клиентов и других будущих действий, сценариев и тенденций
  • машинное обучение, использующее различные алгоритмы для анализа больших наборов данных
  • глубокое обучение , которое является более продвинутым ответвлением машинного обучения
  • программное обеспечение для извлечения текста и статистического анализа
  • искусственный интеллект (ИИ)
  • основное программное обеспечение бизнес-аналитики
  • средства визуализации данных

Основные технологии и инструменты анализа больших данных

Для поддержки процессов анализа больших данных используется множество различных типов инструментов и технологий.Общие технологии и инструменты, используемые для включения процессов анализа больших данных, включают:

  • Hadoop , — платформа с открытым исходным кодом для хранения и обработки больших наборов данных. Hadoop может обрабатывать большие объемы структурированных и неструктурированных данных.
  • Предиктивная аналитика Аппаратное и программное обеспечение, которые обрабатывают большие объемы сложных данных и используют машинное обучение и статистические алгоритмы для прогнозирования результатов будущих событий.Организации используют инструменты предиктивной аналитики для обнаружения мошенничества, маркетинга, оценки рисков и операций.
  • Инструменты Stream Analytics , которые используются для фильтрации, агрегирования и анализа больших данных, которые могут храниться в различных форматах и ​​на различных платформах.
  • Распределенное хранилище данных, которые реплицируются, как правило, в нереляционной базе данных. Это может быть мера против сбоев независимых узлов, потери или повреждения больших данных или для обеспечения доступа с малой задержкой.
  • NoSQL базы данных , представляющие собой нереляционные системы управления данными, полезные при работе с большими наборами распределенных данных. Для них не требуется фиксированная схема, что делает их идеальными для необработанных и неструктурированных данных.
  • Озеро данных — это большой репозиторий, в котором хранятся необработанные данные в собственном формате до тех пор, пока они не потребуются. Озера данных используют плоскую архитектуру.
  • A Хранилище данных , , которое представляет собой репозиторий, в котором хранятся большие объемы данных, собранных из разных источников.Хранилища данных обычно хранят данные с использованием предопределенных схем.
  • Обнаружение знаний/интеллектуальный анализ больших данных инструменты, которые позволяют предприятиям анализировать большие объемы структурированных и неструктурированных больших данных.
  • Структура данных в памяти , которая распределяет большие объемы данных по ресурсам системной памяти. Это помогает обеспечить низкую задержку для доступа к данным и их обработки.
  • Виртуализация данных , которая обеспечивает доступ к данным без технических ограничений.
  • Программное обеспечение для интеграции данных, , которое позволяет оптимизировать большие данные на различных платформах, включая Apache, Hadoop, MongoDB и Amazon EMR.
  • Программное обеспечение качества данных , которое очищает и обогащает большие наборы данных.
  • Программное обеспечение для предварительной обработки данных, , которое подготавливает данные для дальнейшего анализа. Данные форматируются, а неструктурированные данные очищаются.
  • Spark, — среда кластерных вычислений с открытым исходным кодом, используемая для пакетной и потоковой обработки данных.

Приложения для анализа больших данных часто включают данные как из внутренних систем, так и из внешних источников, такие как данные о погоде или демографические данные о потребителях, собранные сторонними поставщиками информационных услуг. Кроме того, приложения потоковой аналитики становятся все более распространенными в средах больших данных, поскольку пользователи хотят выполнять аналитику в реальном времени данных, поступающих в системы Hadoop с помощью механизмов потоковой обработки, таких как Spark, Flink и Storm.

Ранние системы больших данных в основном развертывались локально, особенно в крупных организациях, которые собирали, упорядочивали и анализировали огромные объемы данных.Но поставщики облачных платформ, такие как Amazon Web Services (AWS), Google и Microsoft, упростили настройку и управление кластерами Hadoop в облаке. То же самое касается поставщиков Hadoop, таких как Cloudera, которые поддерживают распространение инфраструктуры больших данных в облаках AWS, Google и Microsoft Azure. Теперь пользователи могут развертывать кластеры в облаке, запускать их столько времени, сколько им нужно, а затем переводить их в автономный режим с ценообразованием на основе использования, для которого не требуются текущие лицензии на программное обеспечение.

Большие данные становятся все более полезными в аналитике цепочки поставок.Аналитика больших цепочек поставок использует большие данные и количественные методы для улучшения процессов принятия решений по всей цепочке поставок. В частности, аналитика больших цепочек поставок расширяет наборы данных для расширенного анализа, выходящего за рамки традиционных внутренних данных, которые можно найти в системах планирования ресурсов предприятия (ERP) и управления цепочками поставок (SCM). Кроме того, аналитика крупных цепочек поставок реализует высокоэффективные статистические методы для новых и существующих источников данных.

Аналитика больших данных — это форма расширенной аналитики, которая имеет заметные отличия от традиционной бизнес-аналитики.

Использование и примеры анализа больших данных

Вот несколько примеров того, как аналитика больших данных может помочь организациям:

  • Привлечение и удержание клиентов. Данные о потребителях могут помочь маркетинговым усилиям компаний, которые могут действовать в соответствии с тенденциями для повышения удовлетворенности клиентов. Например, механизмы персонализации для Amazon, Netflix и Spotify могут улучшить качество обслуживания клиентов и повысить их лояльность.
  • Таргетированная реклама. Данные персонализации из таких источников, как прошлые покупки, шаблоны взаимодействия и истории просмотров страниц продуктов, могут помочь в создании привлекательных целевых рекламных кампаний для пользователей на индивидуальном уровне и в более широком масштабе.
  • Разработка продукта. Аналитика больших данных может дать информацию о жизнеспособности продукта, решениях по разработке, измерении прогресса и направить улучшения в направлении, которое подходит бизнес-клиентам.
  • Оптимизация цен. Розничные продавцы могут выбрать модели ценообразования, которые используют и моделируют данные из различных источников данных для максимизации доходов.
  • Анализ цепочек поставок и каналов. Аналитические модели с прогнозированием могут помочь с упреждающим пополнением запасов, сетями поставщиков B2B, управлением запасами, оптимизацией маршрутов и уведомлением о возможных задержках поставок.
  • Управление рисками. Аналитика больших данных может выявлять новые риски на основе шаблонов данных для эффективных стратегий управления рисками.
  • Улучшенный процесс принятия решений. Информация, которую бизнес-пользователи извлекают из соответствующих данных, может помочь организациям принимать более быстрые и эффективные решения.

Преимущества аналитики больших данных

К преимуществам использования аналитики больших данных относятся:

  • Быстрый анализ больших объемов данных из разных источников в различных форматах и ​​типах.
  • Быстрое принятие более обоснованных решений для эффективной разработки стратегии, которая может принести пользу и улучшить цепочку поставок, операции и другие области принятия стратегических решений.
  • Экономия средств за счет повышения эффективности и оптимизации бизнес-процессов.
  • Лучшее понимание потребностей, поведения и настроений клиентов, что может привести к лучшему пониманию маркетинга, а также предоставить информацию для разработки продукта.
  • Усовершенствованные, более информированные стратегии управления рисками, основанные на больших выборках данных.
Аналитика больших данных включает анализ структурированных и неструктурированных данных.

Проблемы анализа больших данных

Несмотря на широкие преимущества, связанные с использованием аналитики больших данных, ее использование сопряжено с трудностями:

  • Доступность данных. При больших объемах данных хранение и обработка усложняются. Большие данные должны храниться и поддерживаться должным образом, чтобы их могли использовать менее опытные специалисты по данным и аналитики.
  • Обеспечение качества данных. При больших объемах данных, поступающих из различных источников и в различных форматах, управление качеством данных для больших данных требует значительного времени, усилий и ресурсов для его надлежащего обслуживания.
  • Безопасность данных. Сложность систем больших данных создает уникальные проблемы безопасности. Надлежащее решение проблем безопасности в такой сложной экосистеме больших данных может оказаться сложной задачей.
  • Правильный выбор инструментов. Выбор из огромного множества инструментов и платформ для анализа больших данных, доступных на рынке, может привести к путанице, поэтому организации должны знать, как выбрать лучший инструмент, соответствующий потребностям пользователей и инфраструктуре.
  • Из-за потенциальной нехватки навыков внутренней аналитики и высокой стоимости найма опытных специалистов по данным и инженеров некоторым организациям трудно заполнить пробелы.

История и рост аналитики больших данных

Термин большие данные впервые был использован для обозначения увеличения объемов данных в середине 1990-х годов. В 2001 году Дуг Лэйни, в то время аналитик консалтинговой компании Meta Group Inc., расширил определение больших данных. В этом расширении описано увеличение:

  • Объем данных, хранящихся и используемых организациями;
  • Различные данные, генерируемые организациями; и
  • Скорость, с которой эти данные создавались и обновлялись.

Эти три фактора стали известны как 3V больших данных. Gartner популяризировала эту концепцию после приобретения Meta Group и найма Лейни в 2005 году.

Еще одним важным событием в истории больших данных стал запуск платформы распределенной обработки Hadoop. Hadoop был запущен как проект Apache с открытым исходным кодом в 2006 году. Это заложило основу для кластерной платформы, построенной на основе общедоступного оборудования и способной запускать приложения для работы с большими данными. Фреймворк программных инструментов Hadoop широко используется для управления большими данными.

К 2011 году аналитика больших данных начала прочно завоевывать популярность в организациях и в глазах общественности, наряду с Hadoop и различными связанными с ними технологиями больших данных.

Первоначально, когда экосистема Hadoop начала формироваться и развиваться, приложения для работы с большими данными в основном использовались крупными интернет-компаниями и компаниями электронной коммерции, такими как Yahoo, Google и Facebook, а также поставщиками аналитических и маркетинговых услуг.

В последнее время более широкий круг пользователей воспринял аналитику больших данных как ключевую технологию, стимулирующую цифровую трансформацию.В число пользователей входят розничные торговцы, фирмы, предоставляющие финансовые услуги, страховые компании, организации здравоохранения, производители, энергетические компании и другие предприятия.

Большие данные: проблемы и направления будущих исследований

Движение за большие данные создает возможности для химической промышленности для улучшения их операций. Однако впереди нас ждут испытания.

Движение за большие данные набирает обороты, и компании все больше проявляют готовность участвовать в проектах по работе с большими данными.Они ожидают, что с помощью массивных данных и распределенных вычислений они смогут ответить на все свои вопросы — от вопросов, связанных с работой завода, до вопросов, касающихся рыночного спроса. Имея ответы на свои вопросы, компании надеются проложить новые и инновационные пути к совершенствованию процессов и экономическому росту.

Статья в журнале Wired «Конец теории: поток данных делает научный метод устаревшим» (1) описывает новую эру, в которой теорию заменят обилие данных и математики.Обширные данные делают подход к науке «гипотеза-модель-проверка» устаревшим, говорится в статье. В прошлом ученым приходилось полагаться на тестирование образцов и статистический анализ, чтобы понять процесс. Сегодня ученые-компьютерщики имеют доступ ко всему населению и поэтому не нуждаются в статистических инструментах или теоретических моделях. Зачем нужна теория, если все «настоящее» теперь в пределах досягаемости?

Несмотря на то, что большие данные лежат в основе многих историй успеха, могут произойти неожиданные неудачи, когда слепое доверие возлагается на огромное количество доступных данных, что подчеркивает важность теории и фундаментального понимания.

Классический пример таких сбоев на самом деле довольно устарел. В 1936 году известный журнал Literary Digest провел обширный опрос перед президентскими выборами между Франклином Д. Рузвельтом и Альфредом Лэндоном, который тогда был губернатором Канзаса. Журнал разослал 10 миллионов открыток, что в то время считалось огромным объемом данных, чтобы получить представление о предпочтениях населения в голосовании. Дайджест собрал данные от 2,4 миллиона избирателей, и после тройной проверки и проверки данных прогнозировал победу Лэндона над Рузвельтом с перевесом от 57% до 43%.Конечным результатом, однако, была убедительная победа Рузвельта с 61% против 37% Лэндона (оставшиеся голоса были за третьего кандидата). Основываясь на гораздо меньшей выборке из примерно 3000 интервью, Джордж Гэллап правильно предсказал чистую победу Рузвельта.

Литературный дайджест на собственном горьком опыте убедился, что, когда речь идет о данных, значение имеет не только их размер. Статистическая теория показывает, что размер выборки влияет на ошибку выборки, и ошибка действительно была намного меньше в опросе Digest .Но необходимо учитывать и предвзятость выборки — и это особенно важно в предвыборных опросах. (Выборка Digest была взята из списков регистрации автомобилей и телефонных справочников, что создало сильный уклон в сторону избирателей из среднего и высшего класса.)

Еще один пример, демонстрирующий опасность чрезмерного доверия к анализу больших данных. касается математических моделей прогнозирования дефолтов по кредитам, разработанных Lehman Brothers. Основываясь на очень большой базе исторических данных о прошлых дефолтах, Lehman Brothers разработала и тестировала в течение нескольких лет модели для прогнозирования вероятности дефолта компаний по своим кредитам.Тем не менее, эти модели, построенные на такой обширной базе данных, не смогли предсказать крупнейшее банкротство в истории — собственное банкротство Lehman Brothers.

Эти случаи иллюстрируют два общих недостатка, которые подрывают анализ больших данных:

  • выборка, независимо от ее размера, может неточно отражать реальную целевую совокупность или процесс
  • совокупность/процесс развивается во времени ( т.е. нестационарна), и данные, собранные за годы, могут не точно отражать текущую ситуацию, к которой применяется аналитика.

Эти два случая и другие известные грубые ошибки показывают, что знание предметной области, конечно же, необходимо для решения реальных проблем, даже когда доступны огромные данные. Промышленные большие данные могут извлечь выгоду из прошлого опыта, но проблемы впереди.

Рис. 1. Движение больших данных обусловлено доступностью данных, мощными компьютерными технологиями и аналитикой для обработки данных, характеризующихся четырьмя факторами V — объемом, разнообразием, достоверностью и скоростью.

Как и любую новую перспективную область, большие данные следует рассматривать с точки зрения их возможностей, а также с точки зрения их ограничений. Некоторые из этих ограничений представляют собой просто проблемы, которые можно решить, что позволит компаниям максимально использовать новые возможности, создаваемые данными, технологиями и аналитикой (рис. 1).

В этой статье описываются десять критических проблем, связанных с большими данными в промышленном контексте, которые необходимо решить, и предлагаются некоторые новые направления исследований, связанные с ними.Проблемы обсуждаются с точки зрения четырех V, которые определяют контекст больших данных: объем, разнообразие, достоверность и скорость.

Большие данные — это прежде всего обработка огромных объемов данных. Однако в промышленных процессах первое, что нужно понять, это то, что не все данные одинаковы. С этого момента возникает несколько проблем.

Значимые данные . Большинство промышленных проектов больших данных полагаются на случайные данные, т. е. , данные, пассивно собранные из процессов, большую часть времени работающих в нормальных рабочих условиях.Таким образом, действительно имеется большой объем данных, но эти данные охватывают относительно узкий диапазон рабочих условий, возникающих в обычных производственных ситуациях.

Наборы данных, собранные при таких обстоятельствах, могут быть пригодны для мониторинга процесса и действий по обнаружению неисправностей (2) , которые полагаются на хорошее описание нормальных рабочих условий (NOC) в качестве эталона для обнаружения любого назначаемого или значительного отклонения от таких поведение. Однако их ценность ограничена для прогностической деятельности и тем более для задач управления и оптимизации.Прогнозирование может быть выполнено только при тех же условиях, что и в данных, используемых для построения моделей. Как следствие, только когда соблюдаются все корреляции NOC, связывающие входные переменные, модель можно использовать для прогнозирования.

Для действий по контролю и оптимизации процесса описание процесса должно отражать фактическое влияние каждой управляемой входной переменной на выходные данные процесса. Его построение требует экспериментов — , т. е. , активного сбора данных о процессе с помощью программы планирования экспериментов (DOE) для оптимизации процесса или с помощью системной идентификации (SI)…

Большие данные в образовании: современное состояние, ограничения и направления будущих исследований | Международный журнал образовательных технологий в высшем образовании

  • Ахмед Э., Якуб И., Хашем И. А. Т., Шуджа Дж., Имран М., Гуизани Н. и Бахш С. Т. (2018). Последние достижения и проблемы в области мобильных больших данных. Журнал IEEE Communications , 56 (2), 102–108. Китай: Восточно-китайский педагогический университет. https://doi.org/10.1109/MCOM.2018.1700294.

  • Аншари М., Алас Ю. и Юнус Н. (2019). Обзорное исследование поведения смартфонов в Брунее: предложение по моделированию стратегий работы с большими данными. В Онлайн-поведение разных поколений и использование средств массовой информации: концепции, методологии, инструменты и приложения (стр. 201–214). ИГИ глобальный.

  • Блэк, П., и Уильям, Д. (2018). Оценивание в классе и педагогика. Оценка в образовании: принципы, политика и практика , 25 (6), 551–575.https://doi.org/10.1080/0969594X.2018.1441807.

    Артикул Google ученый

  • Баффум, П. С., Мартинес-Арочо, А. Г., Франкоски, М. Х., Родригес, Ф. Дж., Вибе, Е. Н., и Бойер, К. Э. (2014, март). Принципы CS переходят в среднюю школу: учимся преподавать большие данные. В Материалы 45-го ACM технического образования по информатике , (стр. 151-156). Нью-Йорк: ACM. https://doi.org/10.1145/2538862.2538949.

  • Камарго Фиорини, П., Seles, BMRP, Jabbour, CJC, Mariano, EB, & Sousa Jabbour, ABL (2018). Литература по теории управления и большим данным: от обзора к программе исследований. Международный журнал управления информацией , 43 , 112–129. https://doi.org/10.1016/j.ijinfomgt.2018.07.005.

    Артикул Google ученый

  • Кантабелла, М., Мартинес-Эспанья, Р., Аюсо, Б., Яньес, Дж. А., и Муньос, А. (2019).Анализ поведения учащихся в системах управления обучением через структуру больших данных. Компьютерные системы будущего поколения , 90 (2), 262–272. https://doi.org/10.1016/j.future.2018.08.003.

    Артикул Google ученый

  • Че, Б.К. (2019). Общая основа для изучения эволюции экосистемы цифровых инноваций: пример больших данных. Международный журнал управления информацией , 45 , 83–94.https://doi.org/10.1016/j.ijinfomgt.2018.10.023.

    Артикул Google ученый

  • Чаурасия, С.С., и Фрида Розин, А. (2017). От больших данных к большому влиянию: аналитика для преподавания и обучения в высших учебных заведениях. Промышленное и коммерческое обучение , 49 (7), 321–328. https://doi.org/10.1108/ict-10-2016-0069.

    Артикул Google ученый

  • Чаурасия, С.С., Кодвани Д., Лачхвани Х. и Кеткар Массачусетс (2018). Академическая и учебная аналитика больших данных. Международный журнал управления образованием , 32 (6), 1099–1117. https://doi.org/10.1108/ijem-08-2017-0199.

    Артикул Google ученый

  • Кокколи М., Мареска П. и Станганелли Л. (2017). Роль больших данных и когнитивных вычислений в процессе обучения. Журнал визуальных языков и вычислений , 38 , 97–103.https://doi.org/10.1016/j.jvlc.2016.03.002.

    Артикул Google ученый

  • Де Мауро, А., Греко, М., и Гримальди, М. (2016). Формальное определение больших данных, основанное на их основных характеристиках. Обзор библиотеки , 65 (3), 122–135. https://doi.org/10.1108/LR-06-2015-0061.

    Артикул Google ученый

  • Демченко Ю., Гроссо П., Де Лаат, К., и Мембри, П. (2013). Решение проблем больших данных в инфраструктуре научных данных. In Collaboration Technologies and Systems (CTS), Международная конференция , 2013 г., (стр. 48–55). Сан-Диего: IEEE. https://doi.org/10.1109/CTS.2013.6567203.

  • Десси, Д., Фену, Г., Маррас, М., и Рефоргиато Рекуперо, Д. (2019). Объединение аналитики обучения и когнитивных вычислений для классификации больших данных в видеоколлекциях микрообучения. Компьютеры в поведении человека , 92 (1), 468–477.https://doi.org/10.1016/j.chb.2018.03.004.

    Артикул Google ученый

  • Динтер, Б., Якель, Т., Кольвиц, К., и Вахе, Х. (2017). Обучение управлению большими данными – активный подход к обучению в высшем образовании . Северная Америка: документ, представленный на заседании SIGDSA до ICIS 2017 (стр. 1–17). Северная Америка: AISeL.

  • Консультационные услуги Dresner. (2017). Внедрение больших данных: состояние рынка.ZoomData. Получено с https://www.zoomdata.com/master-class/state-market/big-data-adoption

    Google ученый

  • Дубей, Р., и Гунасекаран, А. (2015). Обучение и подготовка для успешной карьеры в области больших данных и бизнес-аналитики. Промышленное и коммерческое обучение , 47 (4), 174–181. https://doi.org/10.1108/ict-08-2014-0059.

    Артикул Google ученый

  • Элиа Г., Солаццо Г., Лоренцо Г. и Пассианте Г. (2018). Оценка удовлетворенности учащихся совместными онлайн-курсами с помощью подхода к работе с большими данными. Компьютеры в человеческом поведении , 92 , 589–599. https://doi.org/10.1016/j.chb.2018.04.033.

    Артикул Google ученый

  • Гупта, Д., и Рани, Р. (2018). Изучение эволюции больших данных и исследовательских задач. Журнал информатики. , 45 (3), 322–340.https://doi.org/10.1177/0165551518789880.

    Артикул Google ученый

  • Гершель Р. и Миори В. М. (2017). Этика и большие данные. Технологии в обществе , 49 , 31–36. https://doi.org/10.1016/j.techsoc.2017.03.003.

    Артикул Google ученый

  • Хирашима Т., Супианто А. А. и Хаяши Ю. (2017, сентябрь). Основанный на модели подход к образовательному анализу больших данных о том, как учащиеся думают с помощью данных процесса.В 2017 Международный семинар по большим данным и информационной безопасности (IWBIS) (стр. 11-16). Сан-Диего: IEEE. https://doi.org/10.1177/0165551518789880

  • Голландия, А.А. (2019). Эффективные принципы дизайна неформального онлайн-обучения: теоретический метасинтез качественных исследований. Компьютеры и образование , 128 , 214–226. https://doi.org/10.1016/j.compedu.2018.09.026.

    Артикул Google ученый

  • Калаян С.А., Касим, Р. М., и Касим, Н. Р. (2019). Описательные и прогнозные методы анализа больших данных. В Веб-сервисы: концепции, методологии, инструменты и приложения (стр. 314–331). США: IGI глобальный. https://doi.org/10.4018/978-1-5225-7501-6.ch018.

  • Камиларис, А., Картакуллис, А., и Пренафета-Болду, Ф. Х. (2017). Обзор практики анализа больших данных в сельском хозяйстве. Компьютеры и электроника в сельском хозяйстве , 143 , 23–37.https://doi.org/10.1016/j.compag.2017.09.037.

    Артикул Google ученый

  • Китченхэм, Б. (2004). Процедуры проведения систематических обзоров. Кил, Великобритания, Кильский университет , 33 (2004), 1–26.

    Google ученый

  • Китченхэм, Б., и Чартерс, С. (2007). Руководство по проведению систематических обзоров литературы по программной инженерии версии 2.3. Машиностроение , 45 (4), 13–65.

    Google ученый

  • Лия, Ю., и Жая, X. (2018). Обзор и перспективы современного образования с использованием больших данных. Procedia Computer Science , 129 (3), 341–347. https://doi.org/10.1016/j.procs.2018.03.085.

    Артикул Google ученый

  • Лян Дж., Ян Дж., Ву Ю., Ли К. и Чжэн Л.(2016). Применение больших данных в образовании: прогнозирование отсева в МООК Edx. В документе , представленном на второй международной конференции IEEE 2016 г. по большим мультимедийным данным (BigMM) (стр. 440–443). США: IEEE. https://doi.org/10.1109/BigMM.2016.70.

  • Логика, Б., и Магдалена, Р. (2015). Использование больших данных в академической среде. Procedia Economics and Finance , 33 (2), 277–286. https://doi.org/10.1016/s2212-5671(15)01712-8.

    Артикул Google ученый

  • Мальдонадо-Махоад, Дж., Перес-Санагустин, М., Кизилсек, Р.Ф., Моралес, Н., и Муньос-Гама, Дж. (2018). Шаблоны, основанные на теории майнинга, из больших данных: выявление саморегулируемых стратегий обучения в массовых открытых онлайн-курсах. Компьютеры в поведении человека , 80 (1), 179196. https://doi.org/10.1016/j.chb.2017.11.011.

    Артикул Google ученый

  • Мартинес-Абад, Ф., Гамазо, А., и Родригес-Конде, М. Дж. (2018). Большие данные в образовании.В документе , представленном на материалах шестой международной конференции по технологическим экосистемам для повышения мультикультурности — TEEM’18, Саламанка, Испания , (стр. 145–150). Нью-Йорк: ACM. https://doi.org/10.1145/3284179.3284206.

  • Микалеф П., Паппас И. О., Крогсти Дж. и Яннакос М. (2018). Возможности анализа больших данных: систематический обзор литературы и программы исследований. Информационные системы и управление электронным бизнесом , 16 (3), 547–578.https://doi.org/10.1007/10257-017-0362-y.

    Артикул Google ученый

  • Мохаммадпур, М., и Тораби, Ф. (2018). Аналитика больших данных в нефтегазовой отрасли: новый тренд. Нефть. В прессе. https://doi.org/10.1016/j.petlm.2018.11.001.

  • Мутукришнан С.М. и Ясин Н.Б.М. (2018). Платформа больших данных для студентов академических. Доклад, представленный на симпозиуме по компьютерным приложениям и промышленной электронике (ISCAIE), Пенанг, Малайзия (стр.376–382). США: IEEE. https://doi.org/10.1109/ISCAIE.2018.8405502

  • Нейлсон, А., Даниэль, Б., и Тяндра, С. (2019). Систематический обзор литературы по большим данным в сфере транспорта: концепции и приложения. Исследование больших данных . В прессе. https://doi.org/10.1016/j.bdr.2019.03.001.

  • Нельсон, М., и Пушар, Л. (2017). Пилотная модульная учебная программа по «большим данным» для выпускников инженерных специальностей: разработка и внедрение.В документе , представленном на конференции «Границы в образовании» (FIE), Индианаполис, США, (стр. 1–5). США: IEEE. https://doi.org/10.1109/FIE.2017.81

  • .

  • Не, М., Ян, Л., Сунь, Дж., Су, Х., Ся, Х., Лиан, Д. и Ян, К. (2018). Расширенное прогнозирование выбора карьеры для студентов колледжей на основе больших данных кампуса. Frontiers of Computer Science , 12 (3), 494–503. https://doi.org/10.1007/s11704-017-6498-6.

    Артикул Google ученый

  • Ой, М., Ямада М., Окубо Ф., Шимада А. и Огата Х. (2017). Воспроизводимость результатов из образовательных больших данных. В документе , представленном на заседаниях Седьмой международной конференции по аналитике и знаниям в области обучения (стр. 536–537). Нью-Йорк: ACM. https://doi.org/10.1145/3027385.3029445.

  • Онг, В.К. (2015). Большие данные и их исследовательское значение для высшего образования: примеры из высших учебных заведений Великобритании. В документе , представленном на 4-м международном конгрессе IIAI 2015 года по передовой прикладной информатике , (стр.487–491). США: IEEE. https://doi.org/10.1109/IIAI-AAI.2015.178.

  • Озгур, К., Клекнер, М., и Ли, Ю. (2015). Выбор статистического программного обеспечения для решения задач больших данных. SAGE Open , 5 (2), 59–94. https://doi.org/10.1177/2158244015584379.

    Артикул Google ученый

  • Пардос, З.А. (2017). Большие данные в образовании и модели, которые их любят. Текущее мнение в области поведенческих наук , 18 (2), 107–113.https://doi.org/10.1016/j.cobeha.2017.11.006.

    Артикул Google ученый

  • Петрова-Антонова Д., Георгиева О. и Илиева С. (2017, июнь). Моделирование образовательных данных в соответствии с цепочкой создания ценности больших данных. В материалах 18-й Международной конференции по компьютерным системам и технологиям (стр. 88–95). Нью-Йорк: ACM. https://doi.org/10.1145/3134302.3134335

  • Цю Р. Г., Хуанг З. и Патель И.С. (2015, июнь). Подход больших данных к оценке службы высшего образования США. В 2015 г. 12-я Международная конференция по системам обслуживания и управлению услугами (ICSSSM) (стр. 1–6). Нью-Йорк: IEEE. https://doi.org/10.1109/ICSSSM.2015.7170149

  • Рамос, Т. Г., Мачадо, Дж. К. Ф., и Кордейро, Б. П. В. (2015). Оценка начального образования в Бразилии с использованием больших данных и кластерного анализа. Procedia Computer Science , 55 (1), 10311039. https://doi.org/10.1016/j.procs.2015.07.061.

  • Риммон-Кенан, С. (1995). Что такое тема и как мы к ней подходим? Тематика: новые подходы, 9–20.

  • Рой С. и Сингх С. Н. (2017). Новые тенденции в применении больших данных в образовательном интеллектуальном анализе данных и обучении. В 2017 г. 7-я Международная конференция по облачным вычислениям, науке о данных и инженерии-Confluence (стр. 193–198). Нью-Йорк: IEEE. https://doi.org/10.1109/confluence.2017.7943148.

  • Сагги, М.К., и Джейн, С. (2018). Опрос по интеграции аналитики больших данных в большие идеи для создания ценности. Обработка информации и управление , 54 (5), 758–790. https://doi.org/10.1016/j.ipm.2018.01.010.

    Артикул Google ученый

  • Сантосо, Л. В. и Юлия (2017). Хранилище данных с технологиями больших данных для высшего образования. Procedia Computer Science , 124 (1), 93–99.https://doi.org/10.1016/j.procs.2017.12.134.

    Артикул Google ученый

  • Седкауи, С., и Хелфауи, М. (2019). Поймите, разработайте и улучшите процесс обучения с помощью больших данных. Обнаружение и доставка информации , 47 (1), 2–16. https://doi.org/10.1108/idd-09-2018-0043.

    Артикул Google ученый

  • Селвин, Н. (2014).Ввод данных: на пути к критическому изучению цифровых данных и образования. Обучение, СМИ и технологии , 40 (1), 64–82. https://doi.org/10.1080/17439884.2014.921628.

    Артикул Google ученый

  • Шахат О.А. (2019). Новая структура аналитики больших данных для умных городов. Компьютерные системы будущего поколения , 91 (1), 620–633. https://doi.org/10.1016/j.future.2018.06.046.

    Артикул Google ученый

  • Шорфуззаман М., Хоссейн М.С., Назир А., Мухаммад Г. и Аламри А. (2019). Использование возможностей аналитики больших данных в облаке для поддержки аналитики обучения в мобильной среде обучения. Компьютеры в поведении человека , 92 (1), 578–588. https://doi.org/10.1016/j.chb.2018.07.002.

    Артикул Google ученый

  • Сивараджа У., Камаль М.М., Ирани З. и Вираккоди В. (2017). Критический анализ проблем больших данных и аналитических методов. Журнал бизнес-исследований , 70 , 263–286. https://doi.org/10.1016/j.jbusres.2016.08.001.

    Артикул Google ученый

  • Следжановский Д., Гомаа М. и Тан К. (2017). На пути к интеграции компетенций в области больших данных, технологий и информационных систем в учебную программу по бухгалтерскому учету. Журнал бухгалтерского образования , 38 (1), 81–93. https://doi.org/10.1016/j.jaccedu.2016.12.008.

    Артикул Google ученый

  • Суриамурти, Р. (2018). Введение аналитики больших данных в средней школе и колледже. В материалах 23-й ежегодной конференции ACM по инновациям и технологиям в области компьютерных наук (стр. 373–374). Нью-Йорк: ACM. https://doi.org/10.1145/3197091.3205834

  • Sorensen, LC (2018). «Большие данные» в управлении образованием: приложение для прогнозирования риска отсева из школы. Управление образования Ежеквартально , 45 (1), 1–93. https://doi.org/10.1177/0013161×18799439.

    MathSciNet Статья Google ученый

  • Су, Ю.С., Дин, Т.Дж., Лу, Дж.Х., Лай, К.Ф., и Су, К.Н. (2017). Применение метода анализа больших данных к учебному поведению студентов и рекомендациям по учебным ресурсам в курсе МООК. В 2017 году Международная конференция по прикладным системным инновациям (ICASI) (стр.1229–1230). Нью-Йорк: IEEE. https://doi.org/10.1109/ICASI.2017.7988114

  • Троизи, О., Гримальди, М., Лойя, Ф., и Майоне, Г. (2018). Анализ больших данных и настроений для выявления поведения, связанного с принятием решений: пример для учащихся. Поведение и информационные технологии , 37 (11), 1111–1128. https://doi.org/10.1080/0144929x.2018.1502355.

    Артикул Google ученый

  • Ур Рехман, М.Х., Якуб И., Салах К., Имран М., Джаяраман П. П. и Перера К. (2019). Роль аналитики больших данных в промышленном интернете вещей. Компьютерные системы будущего поколения , 92 , 578–588. https://doi.org/10.1016/j.future.2019.04.020.

    Артикул Google ученый

  • Велецианос, Г., Райх, Дж., и Пасквини, Л. А. (2016). Жизнь между событиями журнала больших данных. AERA Open , 2 (3), 1–45.https://doi.org/10.1177/2332858416657002.

    Артикул Google ученый

  • Ван Ю., Кунг Л. и Берд Т. А. (2018). Аналитика больших данных: понимание ее возможностей и потенциальных преимуществ для организаций здравоохранения. Технологическое прогнозирование и социальные изменения , 126 , 3–13. https://doi.org/10.1016/j.techfore.2015.12.019.

    Артикул Google ученый

  • Вассан, Дж.Т. (2015). Открытие моделирования больших данных для образовательного мира. Procedia — Социальные и поведенческие науки , 176 , 642–649. https://doi.org/10.1016/j.sbspro.2015.01.522.

    Артикул Google ученый

  • Вольферт С., Ге Л., Вердоу К. и Богардт М. Дж. (2017). Большие данные в умном земледелии – обзор. Сельскохозяйственные системы , 153 , 69–80. https://doi.org/10.1016/j.agsy.2017.01.023.

    Артикул Google ученый

  • Ву, П.Дж., и Лин, К.С. (2018). Аналитика неструктурированных больших данных для извлечения знаний о логистике электронной коммерции. Телематика и информатика , 35 (1), 237–244. https://doi.org/10.1016/j.tele.2017.11.004.

    Артикул Google ученый

  • Сюй, Л. Д., и Дуань, Л. (2019). Большие данные для киберфизических систем в промышленности 4.0: опрос. Корпоративные информационные системы , 13 (2), 148–169. https://doi.org/10.1080/17517575.2018.1442934.

    MathSciNet Статья Google ученый

  • Ян Ф. и Ду Ю. Р. (2016). Сторителлинг в эпоху больших данных. Медиа-педагог Азиатско-Тихоокеанского региона , 26 (2), 148–162. https://doi.org/10.1177/1326365×16673168.

    Артикул Google ученый

  • Ясин А., Сингх, С., Хоссейн, М.С., и Мухаммад, Г. (2019). Аналитика больших данных IoT для умных домов с туманом и облачными вычислениями. Компьютерные системы будущего поколения , 91 (2), 563–573. https://doi.org/10.1016/j.future.2018.08.040.

    Артикул Google ученый

  • Чжан, М. (2015). Использование Интернета, воспроизводящее образовательное неравенство: данные из больших данных. Компьютеры и образование , 86 (1), 212–223.https://doi.org/10.1016/j.compedu.2015.08.007.

    Артикул Google ученый

  • Чжэн, М., и Бендер, Д. (2019). Оценка результатов компьютерного тестирования в классе: принятие учащимися и влияние на обучение и успеваемость на экзаменах. Преподаватель медицины , 41 (1), 75–82. https://doi.org/10.1080/0142159X.2018.1441984.

  • О программе — IEEE Big Data

    Большие данные — это гораздо больше, чем просто биты и байты данных с одной стороны и обработка с другой.Это влечет за собой сбор, хранение, обработку и анализ огромных объемов данных, которые разнообразны по структуре, для получения полезных и полезных идей. Огромные объемы данных различных типов генерируются с возрастающей скоростью. Определение того, как использовать эти данные стратегически и эффективно, является целью технологий, связанных с инициативой Big Data.

    Простой сбор и хранение данных не является единственной целью больших данных; скорее, развитие бизнеса или общества стимулирует технологии больших данных.Например, успешные решения для работы с большими данными могут обеспечить целевой маркетинг, выявить новые рынки или улучшить обслуживание клиентов за счет анализа данных о клиентах, социальных сетях или данных поисковых систем. Изучение данных промышленных датчиков или данных бизнес-процессов может повысить производительность, помочь в упреждающем улучшении процессов или оптимизировать системы цепочки поставок. В качестве последнего примера, общество может извлечь выгоду из аналитики больших данных за счет интеллектуального мониторинга здравоохранения, усилий по кибербезопасности и манипулирования данными умных городов.

     

    С большими данными связано множество проблем, в том числе:

    • Признание полезных и нерелевантных данных
    • Сбор распределенных данных
    • Точность, полнота и своевременность данных
    • Эффективное хранение и передача
    • Конфиденциальность и безопасность данных
    • Отказоустойчивость
    • Масштабируемость и экономический эффект от внедрения
    • Интеллектуальный анализ
    • Проницательная и гибкая презентация

     

    Инициатива IEEE Future Directions Big Data Initiative направлена ​​на сбор информации о различных инициативах, происходящих во всем мире, чтобы обеспечить сообщество профессионалов в промышленности, академических кругах и правительстве, работающих над решением проблем, связанных с большими данными.Через различные каналы участники технического сообщества по большим данным могут учиться и сотрудничать в рамках многогранной инициативы по большим данным, которая находит применение во многих отраслях и на многих рынках. Члены сообщества имеют доступ к обширным ресурсам, включая публикации, видео, статьи, интервью, вебинары, информационные бюллетени, семинары и конференции.

     

    Руководящий комитет

     

    Участвующие общества



    Просмотров страниц: 21782

    Вычисления больших данных и облака: тенденции и направления развития

    Маркос Диас де Ассункао , бывший сотрудник исследовательского отдела IBM, интересуется переносом рабочих нагрузок, управлением ресурсами в облачных вычислениях и методами анализа больших данных.Маркос получил докторскую степень. в области компьютерных наук и разработки программного обеспечения (2009 г.) Мельбурнского университета, Австралия.

    Д-р Родриго Н. Калейрос — научный сотрудник Департамента вычислительных и информационных систем Мельбурнского университета, Австралия. С 2010 года он является членом лаборатории CLOUDS Lab Мельбурнского университета, где занимается исследованием различных аспектов облачных вычислений. Он работает в области облачных вычислений с 2008 года. Его исследовательские интересы также включают виртуализацию, грид-вычисления, а также моделирование и эмуляцию распределенных систем.

    Сильвия Бьянки — научный сотрудник группы сервисных систем подразделения IBM Research Brazil. Она присоединилась к IBM в марте 2012 года. Сильвия получила степень бакалавра наук. степень в области компьютерных наук Федерального университета Санта-Катарины (UFSC), Бразилия, магистр наук. степень в области компьютерных наук Университета Поля Сабатье (UPS), Франция, и доктор философии. получил степень доктора компьютерных наук в Невшательском университете (Unine) в Швейцарии. В настоящее время она участвует в проектах по облачным вычислениям, одноранговым сетям и публикации/подписке.

    Марко А.С. Нетто — исследователь в IBM Research Brazil, где он работает над проектами, связанными с облачными вычислениями и аналитикой. Марко получил докторскую степень. в области компьютерных наук и разработки программного обеспечения (2010 г.) Мельбурнского университета, Австралия. Его исследовательские интересы включают кластерные/сетевые/облачные вычисления с упором на управление SLA, виртуализацию, оценку производительности, планирование заданий, качество обслуживания и вопросы оптимизации.

    Доктор Раджкумар Буйя — профессор компьютерных наук и разработки программного обеспечения и директор лаборатории облачных вычислений и распределенных систем (CLOUDS) Мельбурнского университета, Австралия.Он также является генеральным директором-основателем Manjrasoft, дочерней компании университета, занимающейся коммерциализацией своих инноваций в области облачных вычислений.

    Leave a Reply