|
|
|
|
|
Курсы по технологиям Dell Technologies |
|
Курс: (MR-1CP-DSBDA) Data Science and Big Data Analytics
Работа с данными и аналитика больших данных
Ориентирован: руководителей подразделений по интеллектуальному анализу данных, аналитиков, специали-стов по работе с большими данными, специалистов по работе с данными и базами данных, до-бавляя к их квалификации аналитику больших данных, для молодых специалистов и аспирантов по соответствующей специализации, рассчитывающих работать в области обработки и анализа данных.
Предварительный уровень подготовки:
- Хорошая математическая подготовка с пониманием основ статистики;
- Опыт работы с языками сценариев, например, Java, Perl или Python (или R). Во многих лабораторных работах, выполняемых при прохождении курса, используется язык R (с GUI RStudio);
- Опыт работы с СУБД SQL (в некоторых примерах в курсе используется PSQL).
Считайте вышеупомянутое перечнем необходимой подготовки слушателей курса (или памяткой). Наличие необходимой подготовки обеспечит положительный результат при прохождении курса в классе и позволит слушателям, основываясь на своих знаниях и опыте, изучить инструменты и аналитические методы, рассматриваемые в курсе.
Продолжительность: 5 дней, 40 часов.
Методические материалы: учебник Dell Technologies на английском языке.
Документ об окончании курса: сертификат Dell Technologies.
Курс обеспечивает практическое обучение базового уровня, которое позволяет принять немедленное и эффективное участие в проектах по анализу больших данных и в других аналитических проектах. В процессе обучения на этом курсе вырабатывается базовая квалификация, которая может быть далее повышена на основе дополнительного обучения и практического опыта. В процессе прохождения курса рассматривается введение в процесс жизненного цикла аналитики больших данных, что позволяет решать бизнес-проблемы, в которых используются большие данные. В курсе рассматриваются базовые и усовершенствованные аналитические методы и введение в технологию и инструменты обработки и анализа больших данных, в том числе MapReduce и Hadoop. По всему курсу имеются расширенные лабораторные работы, чтобы закрепить практические навыки применения этих методов и инструментов к реальным бизнес-проблемам, в том числе имеется заключительная лабораторная работа, в рамках которой слушатели решают большую бизнес-проблему, связанную с аналитикой больших данных, применяя знания, полученные в процессе прохождения курса, в контексте жизненного цикла аналитики данных. Курс готовит слушателей к сдаче сертификационного экзамена Proven™ Professional Data Scientist Associate EMCDSA).
Цели курса
- Немедленное участие в работе группы обработки и анализа больших данных в качестве ее члена и в других аналитических проектах путем:
- Развертывания жизненного цикла аналитики данных для работы в проектах аналитики больших данных
- Реструктуризации бизнес-проблемы как аналитической проблемы
- Применения соответствующих проблеме аналитических методов и инструментов анализа больших данных, создания статистических моделей и определения аналитической картины, которая может привести к результатам, дающим основания для действий
- Выбора подходящей визуализации данных, четко передающей аналитическую картину финансистам и аналитикам
- Использования аналитических инструментов: R и RStudio, MapReduce/Hadoop, аналитических функций баз данных, функций Window и MADlib
- Объяснить, как может быть эффективно использована усовершенствованная аналитика для обеспечения конкурентного преимущества компании и как роль и квалификация аналитика данных отличаются от традиционного аналитика
Программа курса
1.Введение в аналитику больших данных
- Что такое большие данные - обзор
- Практические методы аналитики больших данных
- Специалист по обработке и анализу данных
- Аналитика больших данных в отраслях промышленности
2.Жизненный цикл аналитики данных
- Получение данных
- Подготовка данных
- Планирование модели
- Построение модели
- Передача результатов
- Ввод в действие
3.Анализ базовых методов анализа данных с использованием R
- Использование R для просмотра данных – введение в R
- Анализ и исследование данных
- Статистика для построения модели и оценки
4.Углубленная аналитика – теория и методы
- Кластеризация методом k-средних
- Ассоциативные правила
- Линейная и логистическая регрессия
- Наивный байесовский классификатор
- Дерево принятия решений
- Анализ временных рядов
- Анализ текста
5. Углубленная аналитика - технологии и инструменты
- Аналитика для неструктурированных данных - MapReduce и Hadoop
- Экосистема Hadoop: аналитика в базе данных – основы SQL
- Углубленный SQL и MADlib для аналитики в базе данных
6.Эндшпиль или Собирая все вместе
- Ввод в действие аналитического проекта
- Создание конечного результата
- Методы визуализации данных
Выполнение заключительной лабораторной работы на основе аналитики больших данных
|