АНАЛИЗ ДАННЫХ И АНАЛИТИКА ДАННЫХ ДЛЯ НАЧИНАЮЩИХ

Резюме

В этом посте мы рассмотрели основные этапы процесса анализа данных. Эти основные шаги можно изменять, переупорядочивать и использовать повторно по своему усмотрению, но они лежат в основе работы каждого аналитика данных:

Что дальше? Отсюда мы настоятельно рекомендуем вам изучить эту тему самостоятельно. Проявите творческий подход к этапам процесса анализа данных и посмотрите, какие инструменты вы можете найти. Если вы будете придерживаться основных принципов, которые мы описали, вы сможете создать индивидуальную технику, которая подойдет именно вам.

Аналитик данных против специалиста по данным

В исследовании Burtch Works за 2021 год рассматриваются зарплаты специалистов по науке о данных и аналитике данных. Это исследование показывает, что ситуация найма специалистов по анализу данных и аналитике выглядит многообещающе. В исследовании сообщается, что 73% команд по обработке данных и аналитике планировали нанять сотрудников в первом/втором квартале 2021 года по сравнению с 67% в январе 2020 года. Более того, около 81% команд по обработке и анализу данных планируют нанять сотрудников в третьем/четвертом квартале 2021 года. Это значительный рост по сравнению с показателями за первое полугодие 2021 года.

В таблице ниже приведены тенденции заработной платы аналитиков данных и специалистов по данным по уровням. Эти тенденции касаются как роли отдельного участника, так и менеджера. Эти уровни также дают общее представление о том, как может развиваться карьерный путь аналитика данных и специалиста по данным.

Источник: Исследование Burtch Works, 2021 г.

Отдельный участник несет полную ответственность за свою работу. Их работа не требует от них управления командой. Однако руководитель контролирует и работу других сотрудников.

Примите свои неудачи

Хотя эти ловушки могут показаться неудачей, не расстраивайтесь, если они произойдут. Анализ данных по своей сути хаотичен, и в нем случаются ошибки. Важно отточить свою способность замечать и исправлять ошибки. Если бы анализ данных был простым, это могло бы быть проще, но, конечно, не было бы так интересно. Используйте шаги, которые мы обозначили в качестве основы, оставайтесь непредвзятыми и проявляйте творческий подход. Если вы сбились с пути, вы можете вернуться к процессу, чтобы не сбиться с пути.

Чем отличаются количественные и качественные данные?

То, как вы анализируете свои данные, зависит от типа данных, с которыми вы имеете дело — количественных и качественных. Так в чем же разница?

Количественные данные – это все, что можно измерить, включающее в себя определенные количества и числа. Некоторые примеры количественных данных включают показатели продаж, рейтинг кликов по электронной почте, количество посетителей веб-сайта и процентное увеличение дохода. Методы количественного анализа данных сосредоточены на статистическом, математическом или численном анализе (обычно больших) наборов данных. Это включает в себя манипулирование статистическими данными с использованием вычислительных методов и алгоритмов. Методы количественного анализа часто используются для объяснения определенных явлений или для предсказаний.

Аналитики данных работают как с количественными, так и с качественными данными, поэтому важно знать различные методы анализа. Давайте теперь посмотрим на некоторые из наиболее полезных методов.

АНАЛИЗ ДАННЫХ И АНАЛИТИКА ДАННЫХ ДЛЯ НАЧИНАЮЩИХ

Теперь, когда мы знакомы с некоторыми типами данных, давайте сосредоточимся на рассматриваемой теме: различных методах анализа данных.

Регрессионный анализ

Регрессионный анализ используется для оценки взаимосвязи между набором переменных. При проведении любого типа регрессионного анализа вы хотите увидеть, существует ли корреляция между зависимой переменной (это переменная или результат, который вы хотите измерить или спрогнозировать) и любым количеством независимых переменных (факторов, которые могут повлиять на зависимая переменная). Цель регрессионного анализа — оценить, как одна или несколько переменных могут повлиять на зависимую переменную, чтобы выявить тенденции и закономерности. Это особенно полезно для прогнозирования и прогнозирования будущих тенденций.

Предположим, вы работаете в компании электронной коммерции и хотите изучить взаимосвязь между: (а) тем, сколько денег тратится на маркетинг в социальных сетях, и (б) доходом от продаж. В этом случае доход от продаж является вашей зависимой переменной — это фактор, в прогнозировании и повышении которого вы больше всего заинтересованы. Расходы в социальных сетях — ваша независимая переменная; вы хотите определить, влияет ли это на продажи и, в конечном итоге, стоит ли их увеличивать, уменьшать или оставить на прежнем уровне. Используя регрессионный анализ, вы сможете увидеть, существует ли связь между двумя переменными. Положительная корреляция будет означать, что чем больше вы тратите на маркетинг в социальных сетях, тем больший доход от продаж вы получаете. Никакая корреляция вообще не может указывать на то, что маркетинг в социальных сетях не имеет никакого влияния на ваши продажи. Понимание взаимосвязи между этими двумя переменными поможет вам принять обоснованные решения относительно бюджета социальных сетей в будущем. Однако важно отметить, что сами по себе регрессии можно использовать только для определения наличия связи между набором переменных — они ничего не говорят о причине и следствии. Таким образом, хотя положительная корреляция между расходами в социальных сетях и доходами от продаж может свидетельствовать о том, что одно влияет на другое, невозможно сделать окончательные выводы, основываясь только на этом анализе.

Регрессионный анализ в действии: исследование взаимосвязи между расходами на рекламу бренда одежды Benetton и продажами

Моделирование Монте-Карло

При принятии решений или совершении определенных действий существует ряд возможных результатов. Если вы поедете на автобусе, вы можете застрять в пробке. Если вы идете пешком, вы можете попасть под дождь или столкнуться с болтливым соседом, что потенциально задержит ваше путешествие. В повседневной жизни мы склонны кратко взвешивать все «за» и «против», прежде чем решить, какое действие предпринять; однако, когда ставки высоки, важно как можно тщательнее и точнее просчитать все потенциальные риски и выгоды.

Моделирование Монте-Карло, также известное как метод Монте-Карло, представляет собой компьютеризированный метод, используемый для создания моделей возможных результатов и их вероятностных распределений. По сути, он рассматривает ряд возможных результатов, а затем рассчитывает, насколько вероятно, что каждый конкретный результат будет реализован. Метод Монте-Карло используется аналитиками данных для проведения расширенного анализа рисков, что позволяет им лучше прогнозировать, что может произойти в будущем, и принимать соответствующие решения.

Так как же работает симуляция Монте-Карло и что она может нам сказать? Чтобы запустить симуляцию Монте-Карло, вы начнете с математической модели ваших данных, например электронной таблицы. В вашей электронной таблице будет один или несколько результатов, которые вас интересуют; прибыль, например, или количество продаж. У вас также будет несколько входов; это переменные, которые могут повлиять на вашу выходную переменную. Если вы ищете прибыль, соответствующие данные могут включать количество продаж, общие расходы на маркетинг и зарплаты сотрудников. Если бы вы знали точные, окончательные значения всех ваших входных переменных, вы легко смогли бы подсчитать, какую прибыль вы останетесь в конце. Однако, когда эти значения неопределенны, моделирование Монте-Карло позволяет рассчитать все возможные варианты и их вероятности. Какова будет ваша прибыль, если вы совершите 100 000 продаж и наймете пять новых сотрудников с зарплатой 50 000 долларов каждый? Какова вероятность такого исхода? Какова будет ваша прибыль, если вы совершите всего 12 000 продаж и наймете пять новых сотрудников? И так далее. Это делается путем замены всех неопределенных значений функциями, которые генерируют случайные выборки из определенных вами распределений, а затем запускают серию вычислений и перерасчетов для создания моделей всех возможных результатов и их вероятностных распределений. Метод Монте-Карло — один из самых популярных методов расчета влияния непредсказуемых переменных на конкретную выходную переменную, что делает его идеальным для анализа рисков.

Моделирование Монте-Карло в действии: практический пример использования моделирования Монте-Карло для анализа рисков

Факторный анализ

Факторный анализ – это метод, используемый для сведения большого количества переменных к меньшему числу факторов. Он работает на основе того, что несколько отдельных наблюдаемых переменных коррелируют друг с другом, поскольку все они связаны с базовой конструкцией. Это полезно не только потому, что оно объединяет большие наборы данных в более мелкие и более управляемые выборки, но и потому, что помогает выявить скрытые закономерности. Это позволяет вам исследовать концепции, которые невозможно легко измерить или наблюдать, например, богатство, счастье, фитнес или, если использовать более релевантный для бизнеса пример, лояльность и удовлетворенность клиентов.

Предположим, вы хотите лучше узнать своих клиентов и рассылаете довольно длинный опрос, состоящий из ста вопросов. Некоторые вопросы касаются того, как они относятся к вашей компании и продукту; например: «Вы бы порекомендовали нас другу?» и «Как бы вы оценили общее качество обслуживания клиентов?» Другие вопросы включают такие вопросы, как «Каков ваш годовой семейный доход?» и «Сколько вы готовы тратить на уход за кожей каждый месяц?»

Как только ваш опрос будет разослан и заполнен большим количеством клиентов, вы получите большой набор данных, который, по сути, расскажет вам сто разных вещей о каждом клиенте (при условии, что каждый клиент дает сто ответов). Вместо того, чтобы рассматривать каждую из этих реакций (или переменных) по отдельности, вы можете использовать факторный анализ, чтобы сгруппировать их в факторы, которые принадлежат друг другу — другими словами, чтобы связать их с единой базовой конструкцией. В этом примере факторный анализ работает путем поиска элементов опроса, которые сильно коррелируют. Это известно как ковариация. Таким образом, если существует сильная положительная корреляция между доходом домохозяйства и суммой, которую они готовы тратить на уход за кожей каждый месяц (т. е. по мере увеличения одного показателя увеличивается и другое), эти предметы можно сгруппировать вместе. Вместе с другими переменными (ответами опроса) вы можете обнаружить, что их можно свести к одному фактору, например, «покупательной способности потребителя». Аналогичным образом, если рейтинг качества обслуживания клиентов 10/10 сильно коррелирует с ответами «да» относительно того, насколько вероятно, что они порекомендуют ваш продукт другу, эти элементы могут быть сведены к одному фактору, такому как «удовлетворенность клиентов».

Про урокцифры:  СЕТЕВОЙ УРОК И СТАТЬЯ О СЕТЕВОМ ВЗАИМОДЕЙСТВИИ НА УРОКАХ ИНОСТРАННОГО ЯЗЫКА ПО ТЕМЕ

Факторный анализ в действии: использование факторного анализа для изучения моделей поведения клиентов в Тегеране

Когортный анализ

Когортный анализ в действии: как Ticketmaster использовал когортный анализ для увеличения доходов

Кластерный анализ

Кластерный анализ — это исследовательский метод, целью которого является выявление структур в наборе данных. Целью кластерного анализа является сортировка различных точек данных в группы (или кластеры), которые являются внутренне однородными и внешне неоднородными. Это означает, что точки данных внутри кластера похожи друг на друга и отличаются от точек данных в другом кластере. Кластеризация используется для понимания того, как данные распределяются в данном наборе данных, или в качестве этапа предварительной обработки для других алгоритмов.

Существует множество реальных применений кластерного анализа. В маркетинге кластерный анализ обычно используется для группировки большой клиентской базы в отдельные сегменты, что позволяет использовать более целенаправленный подход к рекламе и коммуникациям. Страховые компании могут использовать кластерный анализ, чтобы выяснить, почему определенные места связаны с большим количеством страховых случаев. Другое распространенное применение — геология, где эксперты будут использовать кластерный анализ, чтобы оценить, какие города подвергаются наибольшему риску землетрясений (и, таким образом, попытаться снизить риск с помощью защитных мер).

Кластерный анализ в действии: использование кластерного анализа для сегментации клиентов — пример исследования в сфере телекоммуникаций

АНАЛИЗ ДАННЫХ И АНАЛИТИКА ДАННЫХ ДЛЯ НАЧИНАЮЩИХ

Анализ временных рядов

Анализ временных рядов – это статистический метод, используемый для выявления тенденций и циклов во времени. Данные временных рядов — это последовательность точек данных, которые измеряют одну и ту же переменную в разные моменты времени (например, еженедельные показатели продаж или ежемесячные подписки по электронной почте). Глядя на тенденции, связанные со временем, аналитики могут прогнозировать, как интересующая переменная может колебаться в будущем.

При проведении анализа временных рядов основные закономерности, которые вы будете искать в своих данных:

Как вы понимаете, способность делать обоснованные прогнозы о будущем имеет огромную ценность для бизнеса. Анализ временных рядов и прогнозирование используются в различных отраслях, чаще всего для анализа фондового рынка, экономического прогнозирования и прогнозирования продаж. Существуют различные типы моделей временных рядов в зависимости от используемых вами данных и результатов, которые вы хотите предсказать. Эти модели обычно подразделяются на три основных типа: модели авторегрессии (AR), интегрированные модели (I) и модели скользящего среднего (MA). Подробную информацию об анализе временных рядов можно найти в нашем руководстве.

Анализ временных рядов в действии: разработка модели временных рядов для прогнозирования спроса на джутовую пряжу в Бангладеш

Анализ настроений

Когда вы думаете о данных, ваш ум, вероятно, автоматически обращается к цифрам и электронным таблицам.

Многие компании упускают из виду ценность качественных данных, но на самом деле из того, что люди (особенно клиенты) пишут и говорят о вас, можно получить неисчислимую информацию. Итак, как же вы будете анализировать текстовые данные?

Одним из очень полезных качественных методов является анализ настроений, метод, который принадлежит к более широкой категории анализа текста — процессу (обычно автоматизированному) сортировки и понимания текстовых данных.

Целью анализа настроений является интерпретация и классификация эмоций, передаваемых в текстовых данных. С точки зрения бизнеса это позволяет вам выяснить, как ваши клиенты относятся к различным аспектам вашего бренда, продукта или услуги.

Существует несколько различных типов моделей анализа настроений, каждая из которых имеет немного разную направленность. К трем основным типам относятся:

Детальный анализ настроений

Если вы хотите сосредоточиться на полярности мнений (т.е. позитивный, нейтральный или негативный) глубокий и детальный анализ настроений позволит вам это сделать.

Например, если вы хотите интерпретировать звездные рейтинги, присвоенные клиентами, вы можете использовать детальный анализ настроений, чтобы классифицировать различные оценки по шкале от очень положительного до очень отрицательного.

Обнаружение эмоций

Эта модель часто использует сложные алгоритмы машинного обучения, чтобы выделить различные эмоции из ваших текстовых данных.

Вы можете использовать модель обнаружения эмоций, чтобы идентифицировать слова, связанные со счастьем, гневом, разочарованием и волнением, что даст вам представление о том, что чувствуют ваши клиенты, когда пишут о вас или вашем продукте, скажем, на сайте обзора продуктов.

Аспектный анализ настроений

Этот тип анализа позволяет определить, к каким конкретным аспектам относятся эмоции или мнения, например, к определенной функции продукта или новой рекламной кампании.

Короче говоря, анализ настроений использует различные алгоритмы и системы обработки естественного языка (NLP), которые обучены связывать определенные входные данные (например, определенные слова) с определенными выходными данными.

Например, ввод «раздражает» будет распознан и помечен как «негативный». Анализ настроений имеет решающее значение для понимания того, как ваши клиенты относятся к вам и вашим продуктам, для определения областей для улучшения и даже для предотвращения PR-катастроф в режиме реального времени!

Анализ настроений в действии: 5 практических примеров анализа настроений

Анализ данных

Диагностическая аналитика направлена ​​на понимание того, почему что-то произошло. Это буквально диагноз проблемы, точно так же, как врач использует симптомы пациента для диагностики болезни. Помните бизнес-проблему TopNotch Learning? «Какие факторы негативно влияют на качество обслуживания клиентов?» Диагностический анализ поможет ответить на этот вопрос. Например, это может помочь компании провести корреляцию между проблемой (борьбой за получение повторных заказов) и факторами, которые могут ее вызвать (например, стоимость проекта, скорость доставки, сектор клиентов и т. д.). Давайте представим, что, используя диагностический анализ, TopNotch понимает, что ее клиенты в секторе розничной торговли уходят быстрее, чем другие клиенты. Это может означать, что они теряют клиентов из-за отсутствия опыта в этом секторе. И это полезная информация!

Прогнозный анализ

Прогнозный анализ позволяет определять будущие тенденции на основе исторических данных. В бизнесе прогнозный анализ обычно используется, например, для прогнозирования будущего роста. Но это еще не все. В последние годы прогнозный анализ становится все более сложным. Быстрое развитие машинного обучения позволяет организациям делать удивительно точные прогнозы. Возьмите страховую отрасль. Страховые компании обычно используют прошлые данные, чтобы предсказать, какие группы клиентов с большей вероятностью попадут в несчастные случаи. В результате они повысят страховые взносы для этих групп. Аналогичным образом, отрасль розничной торговли часто использует данные о транзакциях, чтобы предсказать будущие тенденции или определить сезонные покупательские привычки для обоснования своих стратегий. Это всего лишь несколько простых примеров, но неиспользованный потенциал прогнозного анализа весьма убедителен.

Предписывающий анализ

Предписывающий анализ позволяет дать рекомендации на будущее. Это последний шаг аналитической части процесса. Это также самое сложное. Это потому, что он включает в себя аспекты всех других анализов, которые мы описали. Отличным примером предписывающей аналитики являются алгоритмы, которые управляют беспилотными автомобилями Google. Каждую секунду эти алгоритмы принимают бесчисленное количество решений на основе прошлых и текущих данных, обеспечивая плавную и безопасную езду. Предписывающая аналитика также помогает компаниям принимать решения о новых продуктах или областях бизнеса, в которые можно инвестировать.

Данные исследователей довольно сильно отличаются от данных аналитиков. Они могут использовать одни и те же инструменты и языки, но исследователям приходится работать с другими людьми над более крупными проектами (такими, как создание и внедрение моделей машинного обучения) и тратить на это больше времени. Аналитики данных обычно работают над своими проектами самостоятельно: например, использовать панель Tableau для презентации результатов может и один человек. Исследователи данные рассчитывают с привлечением нескольких инженеров и менеджеров к продукту для эффективного решения бизнес-задач с использованием неправильных инструментов и качественных решений.

В отличие от аналитика данных, вам предстоит взаимодействовать со стейкхолдерами только по некоторым вопросам, по другим же, связанным с моделями и результатами их использования вопросам вы будете обращаться к инженерам данных, инженерам по программному обеспечению и менеджерам по продукту.

Вы можете делиться ими со стейкхолдерами, а также с инженерами, которым важно иметь представление о готовом продукте, чтобы, например, разработать UI (пользовательский интерфейс) в соответствии с вашими прогнозами.

Вероятно, самая большая разница в восприятии и функционировании этих должностей заключается в количестве времени на каждый проект. Скорость работы аналитиков данных довольно высока, а исследователям данных могут потребоваться недели или даже месяцы для завершения проекта. Разработка моделей и подготовка проектов исследователя данных — это долгие процессы, поскольку они включают сбор данных, разведочный анализ данных, создание основной модели, итерирование, настройку модели и извлечение результатов.

Free software for data analysis

Notable free software for data analysis include:

How do I become a data analyst?

Now that we’ve gone over the basics of data analytics for beginners: what data analysis is, the types of data analysis, the data analysis process, and the skills possessed by data analysts, you might be wondering, “Great! So, how exactly do I become a data analyst, then?”

Про урокцифры:  VK LESSONS ОТВЕТЫ НА ВОПРОСЫ

It’s very possible to get hired as a data analyst without any formal training. For example, if you’re interested in becoming a healthcare analyst and you already work within the healthcare field and possess the soft skills required, your employer may be interested in providing a traineeship to skill you up on the hard skills required. However, this would be considered a non-traditional route to entry.

For a more structured route into the field, here are some practical steps you can take:

Complete a data analytics bootcamp or program

Especially if you’re thinking about entering the field with little to no experience, taking a dedicated data analytics bootcamp is the best way to cover all of the basic skills and knowledge needed to become a data analyst.

It helps to look out for a course that has a project-based curriculum—as you can use these projects in your future portfolio—as well as one-on-one mentoringcertificate of completion. Other nice-to-haves would include a focus on job preparationnetworking opportunities,job guarantee

We’ll talk a little more about data analytics bootcamps and courses a little later on in this article, so read on!

In this post, we review some of the top data analytics schools on the market.

Write a dedicated resumé

The job market can be tough—no matter the industry—so having a solid resumé is key to stand out to recruiters and potential future employers. If you’re looking to change careers into data analytics, you’ll need to re-write your resumé to highlight the new skills you’ve acquired during the course of your data analytics program—or any other skills from previous roles that may be relevant!

In this guide, we show you how to write a data analyst resume from start to finish

Create a solid data analytics portfolio

You may think that once you’ve written a bulletproof resumé, you’re good to go, right? Wrong! Recruiters and employers want to see your skills and experience exemplified in previous projects, which is why most career-changers will have also built up a data analytics portfolio in addition to their resumé.

It’s a good idea to host this portfolio online, so that you can update it regularly. You should include a range of projects that highlight different aspects of your data analytics skillset. Consider including projects you completed on your own as well as projects you completed as part of a team; projects using different programming languages; projects run using different methods of analysis; projects using visualizations and clearly-written explanations of your findings.

Do your research, network, and apply for jobs

The field of data analytics is wide-ranging, and roles you’ll find online won’t all come under the same name. We outline many of the job titles you might find online, and what the job descriptions may entail in . However, we recommend that you do your own research to discover which fields—and more specifically, which companies—suit your personal wants and needs best.

Once you’ve narrowed down the list of companies and organizations you may be interested in, networking is key. This can be done by attending career fairs, getting in contact with recruiters, or reaching out to people on LinkedIn. It’s a good way of getting information about upcoming roles that isn’t always listed on a careers page.

Finally, take the plunge and start applying for jobs! Make sure that you tailor your cover letter to each individual job posting you’re interested in. Yes, it’s some extra work, but it pays off—recruiters can spot a generic cover letter from a mile away. Putting in the extra effort shows that you have a genuine interest in the role. It may take a while for your efforts to pay off, but it’s worth it in the long run! Plus, every interview is good practice for the next one.

You might enjoy this recording of a webinar we hosted about becoming a data analyst. We often host live workshops and webinars related to data analytics—you can check out our upcoming events here

Key takeaways and further reading

As you can see, there are many different data analysis techniques at your disposal. In order to turn your raw data into actionable insights, it’s important to consider what kind of data you have (is it qualitative or quantitative?) as well as the kinds of insights that will be useful within the given context. In this post, we’ve introduced seven of the most useful data analysis techniques—but there are many more out there to be discovered!

Связь с наймом

Рассказав о том, какими компетенциями должен обладать дата-аналитик на каждом грейде, что от него будут ждать и какая у него будет зона ответственности, расскажем, как такого аналитика найти.

И в начале, хотелось бы привести список проблем найма, с которым столкнулись мы на своей практике.

Компетентность собеседующего. Чтобы определить, подходит ли аналитик для решения задач конкретного продукта, нужно протестировать его по всем направлениям матрицы и понять его пригодность для решения задач конкретного продукта. Человек, принимающий решение в одиночку, должен быть специалистом широкого профиля, а также обладать хорошим навыком проведения собеседований. Обучение такого специалиста может занимать много времени, а само время такого специалиста будет стоить достаточно дорого.

Смещение на собеседующего. В зависимости от продукта и предпочтений аналитика одни больше занимаются моделированием, другие — настройкой ETL-процессов, третьи предпочитают тестировать гипотезы и обсуждать их с бизнесом и т.д. В итоге при “вольном” формате собеседований можем получить ситуацию, когда кандидат был отвергнут из-за недостаточного понимания любимого раздела собеседующего.

Масштабируемость. Исходя из информации первого пункта, становится понятным, что компетентных в проведении собеседования “от А до Я” сотрудников будет немного. Эта малочисленность приводит к проблемам, когда потребности продуктов резко возрастают и нужно проводить волны найма, или необходимо обработать большое количество кандидатов на стажировку/обучение.

Затраты. Продолжение предыдущей проблемы — при малом количестве собеседующих нагрузка на них может существенно возрастать в периоды большой потребности. В таком случае, процессы собеседований будут забирать время у других критически важных задач продуктов, в которых эти специалисты работают. Плюс к этому, не очень хочется загружать специалиста уровня Senior для проведения десятка собеседований на начальную позицию.

Подводя итог вышесказанному, есть две основные задачи, которые нужно решить:

Давайте начнём с конца. Чтобы критерии найма были универсальными, они должны опираться на какой-то эталон. В качестве этого эталона выступает как раз матрица компетенций. С помощью группы энтузиастов на основе матрицы компетенций был сформирован банк задач и вопросов, а также система оценки каждой области. Это позволяет центру принятия решений получить более широкую, объективную и полную информацию для оценки кандидата.

Теперь давайте разберёмся со сложностью оценки тех или иных критериев. Глобально критерии оценивания можно разделить на две области:

1. Базовые технические навыки, мышление.

2. Опыт, креативность, soft-skills.

Для оценки первой части не требуется глубокого знания процесса проведения собеседований, и они поддаются автоматизации. При наличии банка задач и вопросов, а также возможных вариантов ответов, к такой оценке можно привлекать людей без длительного процесса подготовки. Главным критерием является наличие соответствующих технических навыков у самих собеседующих. При этом первый этап может значительно сузить воронку путём отсева людей, недотягивающих по необходимым навыкам для конкретной позиции. Например, это может быть Python/SQL или Python/математика и т.д.

Второй этап систематизировать сложнее, поэтому на него потребуется привлечение опытного специалиста. Интервьюер может задавать вопросы или обсуждать кейсы, для которых нет единственно правильного ответа. Здесь, прежде всего, хочется понять, как думает кандидат, как отразился опыт на его интуиции, что он/она будет предпринимать, оказавшись в тупике и т.п.

Итак, процесс собеседований дата-аналитиков в X5 на момент написания статьи выглядит следующим образом:

Посмотрим, как такая схема собеседований и систематизация критериев помогают решить поставленные выше вопросы:

Компетентность собеседующего. Для оценки специалистов высоких грейдов по-прежнему требуются хорошо обученные сотрудники. Но для оценки позиций типа Junior при наличии хорошо описанных критериев можно привлекать специалистов уровня Middle или продвинутых Junior. И для тех, и для других, собеседования это хороший опыт и способ держать себя в интеллектуальном тонусе.

Смещение на собеседующего. Требование к выставлению оценок по всем компетенциям позволяет убрать смещение на какую-либо конкретную область. Если кандидат является экспертом в каком-то из разделов, то это учитывается при принятии решения о его найме даже при низких баллах в каких-то не ключевых для продукта разделах.

Масштабируемость. На этапе технического интервью при наличии чётких критериев оценки и банка задач можно привлекать больше сотрудников, а время собеседующих занимать более равномерно.

Про урокцифры:  НАПИШИ ПРОГРАММУ АНАЛИЗИРУЮЩУЮ ПОНРАВИВШИЕСЯ БЛЮДА

Затраты. Затраты на подготовку специалистов и “стоимость” интервью также существенно снижаются при наличии отлаженной системы найма.

Задачи DA в X5 Tech

Если попытаться структурировать деятельность дата-аналитиков в X5, то можно выделить 4 области.

Продуктовая аналитика

Эта область особенно актуальна на этапе зарождения продукта, когда в продукте ещё отсутствует сложившаяся практика работы с данными, а решения принимаются на уровне бизнес-экспертизы. Эти задачи включают:

Машинное обучение

Исходя из специфики команды и степени зрелости проекта бывает так, что специально выделенной роли ML нет или она вообще не планировалась, но необходимость применения машинного обучения присутствует. В этом случае аналитик данных может самостоятельно использовать модели машинного обучения для решения своих задач. В силу облегчённых требований к решению, модель может быть как “из коробки”, так и с небольшим тюнингом. Таким образом, аналитику необходимо построить пайплайн, где требуется привести данные в нужный для модели вид, и с её помощью получить конечный результат. Модели, используемые в продуктовой среде, должны быть исследованы на устойчивость, а также для них должны быть выработаны правила-градусники, условия применимости и т.п., чем также занимаются аналитики.

Дата инженерия

Периодически каждому дата-аналитику встречаются задачи, где необходимо добыть данные, преобразовать их, обогатить из других источников. Поэтому мы ждём от своих сотрудников, что они могут самостоятельно подготовить продуктовую витрину для своих исследований, гипотез, моделей. В этом случае используется традиционный арсенал инструментов аналитика Python/SQL (или PySpark, мы писали об одном способе организации проекта на PySpark).

Продуктивный код

Если дата-аналитик написал модель (или свою разработку, учитывающую специфику проекта), решение которой соответствует требованиям бизнеса по качеству и времени работы, то он может написать скрипт для Airflow (или другого планировщика) и поставить задачу на расписание. В этом случае мы ожидаем, что решение качественное, прошло ревью коллег, должным образом протестировано и поддерживаемо. Если необходимо развернуть свой сервис в kubernetes, то надо понимать, как он (kubernetes) работает и что нужно сделать для развёртывания этого сервиса.

Таким образом, деятельность аналитиков в X5 может быть достаточно обширна. Это подводит дата-аналитика к возможности как углубляться в экспертизу в направлении DATA/ML-инженерии, так и развиваться в сторону бизнес-экспертизы и менеджмента.

Project Life Cycle of a Data Analyst and a Data Scientist

Detailed below is how the lifecycle of a project handled by a data analyst typically looks.


АНАЛИЗ ДАННЫХ И АНАЛИТИКА ДАННЫХ ДЛЯ НАЧИНАЮЩИХ

The process flow chart shown below details the various stages in the project handled by a data scientist.


АНАЛИЗ ДАННЫХ И АНАЛИТИКА ДАННЫХ ДЛЯ НАЧИНАЮЩИХ

The data analysis process

The first step for any data analyst will be to define the objective of the analysis, sometimes called a ‘problem statement’. Essentially, you’re asking a question with regards to a business problem you’re trying to solve. После того, как вы это определили, вам нужно будет определить, какие источники данных помогут вам ответить на этот вопрос.

Сбор данных

Теперь, когда вы определили свою цель, следующим шагом будет разработка стратегии сбора и агрегирования соответствующих данных. Будете ли вы использовать количественные (числовые) или качественные (описательные) данные? Соответствуют ли эти данные первичным, сторонним или сторонним данным?

Очистка данных

К сожалению, собранные вами данные не готовы к анализу автоматически — сначала вам придется их очистить. Для аналитика данных этот этап процесса займет больше всего времени. В процессе очистки данных вы, скорее всего, будете:

Визуализация и обмен результатами

Как вы можете себе представить, каждый этап процесса анализа данных требует от аналитика данных иметь в своем арсенале множество инструментов, которые помогают получить ценную информацию из данных. Мы рассмотрим эти инструменты более подробно в этой статье, но, вкратце, вот наш список лучших из лучших со ссылками на каждый продукт:

9 лучших инструментов для аналитиков данных

АНАЛИЗ ДАННЫХ И АНАЛИТИКА ДАННЫХ ДЛЯ НАЧИНАЮЩИХ

Матрица компетенций и должностных обязанностей

Представление требуемых навыков в зависимости от уровня сотрудника часто называют Матрицей компетенций. В перспективе мы будем использовать именно этот термин.

Разобравшись в определении общих компетенций и задач дата-аналитики, структурируемо это понимание в видеоматрицах компетенций, но прежде чем переходить к самой матрице, давайте разберёмся, чем она может быть полезна:

Наконец, приведём специалистов, которые соответствуют требованиям продуктов в X5. Для удобства разверните матрицу в виде списка по уровням Junior/Middle/Senior.

Формат текста будет соответствовать уровням, при этом каждый следующий уровень включает в себя требования к компетенции.

Вопреки ожиданиям некоторые технические требования могут устареть (возможно, уже устарели на момент прочтения данной статьи), поэтому матрица должна своевременно актуализироваться отделом аналитики.

Уровни компетенции Старший очень высоки, и, зачастую, при прохождении уровней этот аналитик углубляется в развитие данной специальности и может перейти на должность MLE или лидом в аналитике.

Помимо набора компетенций, разным грейдам соответствуют разные зоны ответственности. Распределение таких зон в отделе аналитики X5 представлено ниже:

АНАЛИЗ ДАННЫХ И АНАЛИТИКА ДАННЫХ ДЛЯ НАЧИНАЮЩИХ

Данная схема используется для определения обвинений. Следовательно, на примере может произойти так, что Старший выполняет задачу Средний/Младший, если в команде ещё нет этих ролей. А вот если Младший решает задачи Старшего, то это значит, что состав команды определен неверно.

В X5 Tech мы продолжаем повышать качество дат-аналитиков. Организуются и финансируются внутренние и внешние курсы, есть наставничество, код-ревью, внутренние встречи для обмена опытом и многое другое.

АНАЛИЗ ДАННЫХ И АНАЛИТИКА ДАННЫХ ДЛЯ НАЧИНАЮЩИХ

Определите вопрос

Чтобы заложить основы вашего анализа, аналитику данных сначала необходимо определить свою цель, иначе известную как «постановка проблемы».

Для начала аналитик данных может спросить: какую бизнес-проблему я пытаюсь решить? Определив это, можно установить основу для всего анализа.

Соберите данные

Как только аналитик определит цель анализа, ему необходимо будет разработать стратегию сбора соответствующих данных.

Очистка данных

Итак, данные собраны. Что теперь? Пришло время чистить! На этом этапе аналитику данных необходимо будет очистить данные, чтобы убедиться в их высоком качестве. Этот процесс очистки (или «очистки») включает в себя:

Анализ данных

Верно! К этому моменту аналитик данных поднялся на самую большую вершину пути анализа данных — чистоту данных — и теперь он готов к самому интересному: анализу!

Мы уже объяснили основы четырех типов анализа данных — описательного, диагностического, прогнозного и предписывающего. Это та часть, где аналитик данных будет применять методологии, связанные с типом анализа, который лучше всего «решит» его постановку проблемы.

Данные были проанализированы и получены выводы. Однако это не конец процесса анализа данных: теперь аналитик данных должен представить свои выводы в ясной и понятной форме для ключевых заинтересованных сторон.

Для этого аналитик может использовать программное обеспечение для визуализации, например Microsoft Power BI, которое будет генерировать отчеты, информационные панели или интерактивные визуализации.

Как эффективно провести качественный анализ данных

АНАЛИЗ ДАННЫХ И АНАЛИТИКА ДАННЫХ ДЛЯ НАЧИНАЮЩИХ

Проведение качественного анализа данных само по себе является сложной задачей из-за его неструктурированного характера. Однако использование надлежащих аналитических навыков аналитика вместе с правильной методологией может обеспечить надежный анализ данных. Качественный анализ данных может показаться тревожным и скучным, но все началось с правильной ноги, и этим можно вполне наслаждаться.

Что такое качественные данные?

Эти типы данных, также известные как описательные данные, содержат нечисловые значения, которые в основном состоят из концепций и мнений. Интервью с клиентами, аудио/видео записи, заметки и т. д. являются одними из немногих примеров качественных данных.

Что такое качественный анализ данных?

При качественном анализе данных аналитик изучает данные и приходит к объяснению конкретного явления. Выявив различные закономерности и темы в данных, аналитик может обеспечить хорошее понимание цели исследования.

Цель качественного анализа данных

Основная цель качественного анализа данных — организовать, интерпретировать и выявить закономерности на основе данных. Анализируя все полевые данные, аналитик приходит к обоснованным и обоснованным выводам.

Два основных подхода к качественному анализу

Дедуктивный подход в качественном анализе данных включает процедуры, в которых исследователь готовит набор структурированных вопросов, а затем использует их для группировки и анализа данных. Этот тип подходов идеален, когда исследователи имеют представление об ответах выборки населения.

В отличие от дедуктивного подхода, индуктивный подход предполагает более тщательную и трудоемкую процедуру со стороны исследователя. Когда исследователь не знаком с исследованием явления, такой подход оказывается жизненно важным вариантом.

Понимание различий между аналитиками данных и специалистами по обработке данных

Различие между аналитиком данных и специалистом по данным связано с характером выполняемой ими работы. Для аналитика данных профиль в первую очередь является исследовательским, в отличие от профиля экспериментальной работы специалиста по данным.

Различие между аналитиком данных и специалистом по данным связано с уровнем опыта в использовании данных. Из этих двух специалистов специалист по данным должен лучше разбираться в передовых методах программирования и вычислительных инструментах. Кроме того, специалист по данным должен быть более искусным в разработке моделей данных и алгоритмов. Понимание различных способов использования данных компаниями может помочь внести большую ясность в их соответствующие роли.

Аналитик данных использует описательную аналитику для сообщения фактов и иногда предоставляет предписывающую аналитику в виде рекомендаций, основанных на этих знаниях. Специалист по данным охватывает весь диапазон аналитических исследований, уделяя особое внимание прогнозной аналитике и созданию ценности для организаций с помощью данных.