|
|
|
|
|
Курсы по технологиям Dell Technologies |
|
Курс: (ES712OCMDEWRK) Data Engineering Workshop
Практический курс по инженерии данных
Ориентирован: на инженеров по обработке данных, научных работников в области проблем больших данных, архитекторов и аналитиков данных, а также на специалистов, планирующих изучать и применять принципы и инструменты инженерии данных. Слушателями могут стать:
- Бизнес-аналитики бизнеса и аналитики данных, стремящиеся расширить свой набор навыков в области инженерии данных;
- Специалисты по базам данных, стремящиеся расширить свои навыки работы с большими данными
- Руководители команд специалистов по бизнес-интеллекту, аналитике и большим данным.
Предварительный уровень подготовки:
- Опыт работы с такими языками программирования, как Java, R или Python;
- Знакомство с нестатистическими аспектами программы экзамена Data Science and Big Data Analytics v2;
- Понимание роли инженера по обработке данных согласно курсу Introduction to Data Engineering (Введение в инженерию данных - ES731OCMIDENG).
Продолжительность: 5 дней, 40 часов.
Методические материалы: учебник Dell Technologies на английском языке.
Документ об окончании курса: сертификат Dell Technologies.
На протяжении более чем 10 лет многие компании уделяли особое внимание получению из своих данных новых возможностей для бизнеса. Из этой деятельности возникла новая специальность, которую назвали data scientist или специалист по теории и методам анализа данных и процессов. Однако довольно быстро стало очевидно, что большая часть времени такого специалиста тратилась на подготовку данных или на внедрение аналитических моделей в производственные среды. Таким образом, инженер по данным стал весьма желательным и незаменимым членом проектных аналитических групп. Этот курс с инструктором содержит сведения и практические лабораторные работы, взятые из следующих курсов:
- Data Warehousing with SQL and NoSQL (Хранение данных с помощью SQL и NoSQL);
- ETL Offload with Hadoop and Spark (Разгрузка ETL-процессов с помощью платформ Hadoop и Spark);
- Data Governance, Security and Privacy for Big Data (Управление данными, безопасность и конфиденциальность больших данных);
- Processing Streaming and IoT Data (Обработка потоковых данных и данных технологии Интернета вещей);
- Building Data Pipelines with Python (Построение конвейеров данных при помощи языка Python);
В ходе этого обучения слушатель готовится к прохождению основной части экзамена на сертификацию специалиста по инженерии данных Dell Technologies Proven Professional (DES-7DE1). Просмотрите документ с описанием экзамена, чтобы понять все связанные с этим возможности обучения и использования данных.
После успешного завершения этого курса слушатели смогут:
По разделу Хранение данных с помощью SQL и NoSQL:
- Давать обзор хранилищ данных;
- Пояснять назначение баз данных и их различные типы;
- Описывать различные инструменты SQL и NoSQL.
По разделу Разгрузка ETL-процессов с помощью платформ Hadoop и Spark:
- Выявлять бизнес-проблемы с помощью ETL-процессов (Extract-Transform-Load - Извлечение-Преобразование-Загрузка)
- Разъяснять ELT- процессы и ETL- процессы;
- Описывать экосистему Hadoop как решение для разгрузки ETL-процесса (ETL offload solution).
По разделу Управление данными, безопасность и конфиденциальность больших данных:
- Описывать процессы управление данными, роли и обязанности;
- Обсуждать модели управления данными;
- Описывать метаданные, типы метаданных и их использование;
- Пояснять основные данные, структуру данных и назначение;
- Пояснять средства управления безопасностью платформы Hadoop;
- Обсуждать инструменты управления данными Atlas, Ranger и Knox;
- Давать рекомендации по обеспечению безопасности облачной среды;
- Объяснить GDPR (General Data Protection Regulation - Общий регламент по защите данных) и вопросы этики данных.
По разделу Обработка потоковых данных и данных технологии Интернета вещей:
- Описывать среды потоковой передачи данных и обработки данных Интернета вещей;
- Объяснять систему обмена сообщениями Kafka на примерах;
- Объяснять ключевые функции, архитектуру и различные сценарии использования средств обработки потоков, таких как Storm, Spark Streaming и Flink;
- Объяснять различные проекты, связанные с Интернетом вещей, такие как Project Nautilus, Pravega и EdgeX Foundry.
По разделу Построение конвейеров данных при помощи языка Python:
- Написание скриптов на языке Python для выполнения ключевых операций обработки данных;
- Описание конвейеров данных и инструментов работы с ними;
- Построение конвейеров данных с помощью Python.
Программа курса
- Хранение данных с помощью SQL и NoSQL.
- Хранилища данных;
- Реляционные базы данных;
- Операции SQL;
- Транзакционные или аналитические;
- Рекомендации по вопросам проектирования и производительности;
- NoSQL;
- SQL или NoSQL;
- Типы и примеры баз данных NoSQL;
- Redis (REmote DIctionary Server);
- Cassandra;
- CouchDB;
- Data Lakes (озера данных);
- Разгрузка ETL-процессов с помощью платформ Hadoop и Spark.
- Экосистема Hadoop;
- Распределённая файловая система Hadoop (Hadoop Distributed File System - HDFS);
- Инструменты процесса получения, внесения и обработки данных для последующего их использования или хранения в базе данных (Data ingestion);
- Flume – ПО для эффективного сбора, агрегирования и перемещения больших объемов данных журнала;
- Sqoop – ПО, позволяющее импортировать данные в Hadoop (например в Hive) из различных реляционных СУБД;
- Spark – Платформа параллельной обработки с открытым кодом;
- Планировщики ETL-процессов;
- Oozie – это серверная система планирования рабочих процессов и повторяющихся задач в экосистеме Hadoop;
- Airflow – набор библиотек для разработки, планирования и мониторинга рабочих процессов;
- Рекомендации по внедрению ETL offload;
- Управление данными, безопасность и конфиденциальность больших данных.
- Управление данными – Обзор;
- Роли при управлении данными;
- Модели управления данными;
- Метаданные;
- Управление основными данными;
- Средства контроля безопасности в экосистеме Hadoop;
- Atlas – масштабируемый и расширяемый набор базовых сервисов управления в экосистеме Hadoop;
- Инструмент Ranger, обеспечивающий комплексный подход к безопасности кластера Hadoop;
- Knox – решение для защиты периметра Hadoop;
- Рекомендации по вопросам безопасности в облаке;
- GDPR (General Data Protection Regulation - Общий регламент по защите данных);
- Этика данных: недопущение скрытых предубеждений;
- Обработка потоковых данных и данных технологии Интернета вещей.
- Обработка потоковых данных и данных технологии Интернета вещей – Обзор;
- Инструментальный фреймворк для обработки потоковых данных и данных технологии Интернета вещей;
- Storm – фреймворк для распределенных потоковых вычислений в реальном времени;
- Kafka – распределенная система обмена сообщениями;
- Spark Streaming - компонент Spark для обработки потоковых данных;
- Flink – фреймворк для масштабируемой распределенной обработки потоков, предназначенный для операций над непрерывными потоками данных;
- Pravega;
- Project Nautilus;
- EdgeX Foundry – это экосистема платформ IoT (Интернет вещей), основанная на конфигурациях с открытым исходным кодом;
- Построение конвейеров данных при помощи языка Python.
- Введение в конвейеры данных;
- Введение в язык Python;
- Особенности языка Python;
- Основной синтаксис языка Python;
- Типы данных, операторы и условные операторы;
- Определяемые пользователем функции и классы;
- Библиотеки языка Python;
- Структуры данных в языке Python;
- Рекомендации по конвейерам данных.
Кроме лекций и демонстраций в ходе изучения курса предусмотрено выполнение лабораторных работ для выработки у слушателей практических навыков работы.
|