Пример построения аналитического дэшборда в BI-сервисе Яндекса: возможности Yandex DataLens для аналитики данных из PostgreSQL. Визуализируем ключевые метрики по клиентам, продажам и поставщикам из базы данных интернет-магазина.
Постановка задачи и краткий ликбез по облачной BI-системе DataLens от Яндекса
Хотя считается, что аналитикой данных занимаются BI-инженеры с дата-аналитиками, а не системные и не бизнес-аналитики, умение работать с метриками полезно для всех специалистов по анализу и проектированию. Поэтому сегодня я покажу, как построить простой дэшборд в облачной BI-системе DataLens от Яндекса. В качестве примера, как обычно, возьмем интернет-магазин. Данные о продажах, клиентах, товарах и поставщиках хранятся в реляционной базе данных PostgreSQL, экземпляр которой у меня развернут в облачной serverless-платформе Neon. О том, какие действия пришлось выполнить, чтобы подготовить базу данных к анализу, я расскажу в другой раз, а пока рассмотрим архитектуру и принципы работы аналитической системы.
Системы класса Business Intelligence (BI) работают как клиент-серверные приложения, которые подключаются к хранилищу данных, позволяя аналитику строить наглядные визуализации и таблицы полезных бизнес-метрик. Например, помесячные гистограммы уровня продаж, круговые диаграммы типов покупателей, сводные таблицы и т.д. Одной из таких систем является облачный сервис Yandex DataLens, который имеет бесплатный тариф для каждого пользователя этой экосистемы.
Подготовка к анализу: настройка подключения к источнику данных
Войдя в службу, необходимо сперва подключиться к источнику данных, выбрав подключения.
DataLens поддерживает разные источники данных, от сервисов Яндекса и табличных файлов до реляционных баз данных и NoSQL-хранилищ. Поскольку мои данные лежат в PostgreSQL, надо выбрать именно этот источник данных.
Далее следует настроить подключение к выбранному хранилищу. Если планируется создавать не только простые дэшборды с преднастроенными визуализациями и таблицами, но и с интерактивными запросами, необходимо вырать расширенный уровень доступа к источнику данных, разрешив подзапросы в датасетах и запросы из чартах.
Термин чарт в Yandex DataLens означает визуализацию: диаграмму или таблицу. Несколько чартов, сгруппированных тематически, можно расположить на дашборде – наглядной аналитической панели. Чарты визуализируют данные из источника данных, которые обозначаются термином датасет. Поэтому перед созданием чартов необходимо создать датасет, выбрав соответствующий пункт в BI-сервисе.
Поскольку данные берутся из источника данных, т.е. подключения, при создании датасета необходимо выбрать ранее настроенное подключение.
После выбора подключения Yandex DataLens покажет таблицы, которые есть в этом источнике данных. Таблицы, которые нужны для аналитики, надо перетащить в рабочую область и связать друг с другом по внешнему ключу, настроив связи.
После того, как все необходимые для анализа данных, таблицы связаны друг с другом, Даталенс отобразит модель данных, которая частично или полностью соответствует исходной модели данных в источнике.
По умолчанию при создании датасета DataLens лаконично именует каждое поле в таблице, что не всегда удобно. Поэтому я всегда меняю имя поля так, чтобы оно соответствовало исходному названию столбца в источнике данных. Так намного удобнее отлаживать и проверять создаваемые в BI-сервисе чарты.
Помимо переименования столбцов, я рекомендую всегда просматривать поля в создаваемом датасете, чтобы проверить и при необходимости изменить тип данных, а также установить или сбросить агрегацию, которую BI-сервис может поставить по умолчанию. После настройки подключения и создания датасета, наконец, можно приступить к самому интересному, т.е. созданию аналитических отчетов с визуальными диаграммами и таблицами. Это рассмотрим далее.
Основы архитектуры и интеграции информационных систем
Код курса
OAIS
Ближайшая дата курса
20 января, 2025
Продолжительность
16 ак.часов
Стоимость обучения
36 000 руб.
Аналитика данных в Yandex DataLens: создание чартов и дашбордов
Как уже было отмечено выше, визуализации в терминологии Даталенс называются чартами. Поэтому необходимо создать чарт.
Чарты в BI-сервисе Яндекса бывают 2-х видов:
- простые, которые оперируют названием полей и предустановленных функций, но не предполагают написание SQL-запросов к источнику данных. Это довольно удобно для бизнес-пользователей и подходит для большинства простых аналитических сценариев, позволяя выполнить несложные операции выборки, соединения, агрегации и даже преобразования данных. Однако, для сложных параметрических запросов этот вариант не подойдет.
- QL-чарты, которые как раз позволяют написать полноценный SQL-запрос к источнику данных, включая все операторы и подзапросы. Это подходит для более сложных аналитических сценариев и параметрических запросов с переменными, которые интерактивно задаются пользователем на работающем дэшборде. Подробнее про этот вариант работы с источником данных я расскажу в следующей статье.
При создании чарта надо указать заранее созданный датасет.
После выбора датасета и типа визуализации (гистограмма, круговая диаграмма, таблица, график и пр.) можно приступать к ее настройке. Например, изменить отображаемое название осей для графической визуализации или столбцов для таблицы. Также можно создать новое поле, которое будет отображать результат аналитической операции: агрегации или преобразования данных.
Yandex DataLens поддерживает обычные и сводные таблицы, а также несколько видов графических визуализаций. К сожалению, в отличии от PowerBI, Даталенс ожидает, что для отображения геолокаций данные должны быть заданы в виде пары координат, а не просто текстом. Поэтому в этом примере я не буду показывать работу с картами, но кратко расскажу про другие виды визуализаций, из которых наиболее полезными считаю следующие:
- Столбчатая диаграмма – гистограмма. Отлично показывает изменение значений одной метрики по временным периодам, например, доход по месяцам.
- Линейная диаграмма – график, с помощью которого можно показать тенденцию изменения переменной во времени, а также зависимость одной или нескольких переменных от другой.
- Круговая и кольцевая диаграммы, которая выглядят как сегментированный круг или кольцо. Они хорошо подойдут для отображения долей в общей массе, например, распределение клиентов по статусам в программе лояльности.
- Древовидная диаграмма аналогично круговой показывает распределение долей в общей выборке, но делает это более компактно при большом количестве данных.
- Точечная диаграмма показывает отношение между 2-мя переменными, позволяя понять зависимость между ними и показать разброс значений.
- Комбинированная диаграмма, которая сочетает график и гистограмму, позволяя отображать изменение нескольких метрик во времени.
Помимо наглядных диаграмм, аналитический дэшборд обычно включает и таблицы. Таблицы в Даталенс – это тоже чарты, которые надо настраивать: менять отображаемые названия столбцов, задавать формулы для вычисления необходимых метрик и выбирать функции агрегации и преобразования данных.
В отличие от обычной таблицы, в сводной таблице задаются не только столбцы и строки, но и показатели – детальные значения анализируемых метрик.
После того, как все необходимые чарты созданы, можно располагать их на аналитическом дашборде – веб-странице, которая отображает диаграммы и таблицы. Для этого надо сперва создать сам дашборд.
Чтобы добавить на дэшборд ранее созданные чарты, надо выбрать соответствующий пункт.
Для удобной навигации по нескольким тематическим визуализациям их лучше разделить на несколько вкладок дэшборда, например, Клиенты, Товары, Платежи и пр.
После того, как работа над дэшбордом окончена, можно дать ссылку на созданную аналитическую панель, чтобы бизнес-пользователи могли видеть нужные им метрики и принимать решения, основанные на данных. Например, мой дэшборд для этой демонстрации доступен по этой ссылке.
В следующей статье я расскажу про создание интерактивных дашбордов, QL-чарты и селекторы, а также про основные моменты, которые надо учитывать при разработке требований к аналитическим панелям.
Разработка ТЗ на информационную систему по ГОСТ и SRS
Код курса
TTIS
Ближайшая дата курса
2 декабря, 2024
Продолжительность
16 ак.часов
Стоимость обучения
36 000 руб.
Подробнее познакомиться со основами архитектуры и интеграции информационных систем, а также разработке требований к ним, вы сможете на моих курсах Школы прикладного бизнес-анализа в нашем лицензированном учебном центре обучения и повышения квалификации системных и бизнес-аналитиков в Москве: