Tableau и теория анализа и обработки данных
Компания Tableau считает помощь людям в принятии решений своей миссией, поскольку ПО позволяет им не только видеть данные, но и понимать их. Это подразумевает оказание помощи организациям в решении одной из самых актуальных задач в науке о данных, а именно – как сделать так, чтобы полученными вследствие анализа данных выводами мог воспользоваться менеджмент компаний. Специалисты-аналитики считают, что инвестиции часто не окупаются именно из-за отсутствия коммуникации между теми, кто занимается теорией анализа данных и лицами, реально принимающими решения. Налаживание такой коммуникации с помощью Tableau может преодолеть этот разрыв благодаря интерактивности программы и исследованиям.
В этой публикации я хотел бы поделиться описанием новейших функций интеграции Python. Они были созданы для поддержки теории анализа и обработки различных данных в Tableau.
TabPy 1.0
Python – это очень распространенный инструмент среди аналитиков и специалистов по обработке и анализу данных из разных отраслей. Python позволяет выполнять различные задачи – от очистки и формирования данных до внедрения передовых алгоритмов в машинное обучение. Tableau поддерживает динамическую интеграцию с Python через TabPy в Desktop и Server, начиная с версии 10.3 и в Prep с версии 2019.3. Вот несколько отличных вариантов использования интеграции Python в Tableau:
- Сессии от ТК18 и ТК19
- Публикации в блоге о написании скриптов в Tableau Prep
- Руководство по анализу и использованию табличных расчетов
Упрощенная установка
В своем первоначальном виде TabPy устанавливался как pip-пакет Python под названием tabpy-сервер и, по умолчанию, необходимо было установить программу для работы с данными – Anaconda. Для TabPy также требовался второй пакет для развертывания функций под названием tabpy-client. Чтобы упростить процесс работы для пользователей, функциональность обоих пакетов была объединена в один пакет – tabpy, а также устранена его зависимость от программы Anaconda. TabPy, работающий в виртуальной среде Anaconda, это по-прежнему очень хорошее решение, но теперь доступны и другие установки Python. Чтобы установить TabPy на компьютер со средой Python 3.6+, просто введите:
pip install tabpy
Чтобы запустить сервер TabPy, напишите в командной строке следующее:
tabpy
После запуска TabPy можно подключиться к Tableau Desktop, перейдя в Help->Settings and Performance->Manage External Service Connections, затем введите информацию о своем подключении:
В сервере Tableau соединение можно настроить с помощью команды безопасности TSM.
Предварительно построенные статистические функции
После установки TabPy и запуска сервера можно установить библиотеку предварительно построенных статистических функций с того же компьютера, используя простую команду командной строки:
tabpy-deploy-models
Эти функции включают анализ, например, Анализ основных компонентов (PCA), Анализ настроений, t-тест и анализ вариантов (ANOVA). После установки любую из этих функций можно вызвать по ее названию с любого рабочего стола или сервера Tableau, подключенного к TabPy. В следующем примере функция t-test используется для A/B тестирования
Библиотека tabpy_tools, которая устанавливается вместе с TabPy, позволяет определять и развертывать ваши собственные функции Python, включая оценку с помощью моделей машинного обучения. Попробуйте сами, используя все перечисленные инструкции.
Защищенные соединения и аутентификация
TabPy поддерживает защищенные соединения по протоколу HTTPS с использованием SSL и аутентификации по имени пользователя и по паролю с помощью обычной аутентификации. Защищенные соединения можно настроить в файле конфигурации TabPy. Начиная с версии Tableau 2020.1, Tableau Desktop и Server считывают SSL-сертификаты из хранилища ключей ОС, при этом нет необходимости указывать сертификат в Tableau. Аутентификация настраивается с помощью утилита, задокументированного и включенного в пакет tabp.
Быстрая настройка
TabPy можно запустить с пользовательскими настройками конфигурации, обозначенными в файле конфигурации, указанном при запуске сервера. Спецификации для файла конфигурации и образец доступны на сайте. Настраиваемые функции включают SSL, аутентификацию, ведение журнала, максимальный размер данных и время ожидания. Чтобы запустить TabPy с помощью пользовательской конфигурации, добавьте параметр запуска конфигурации, как в следующем примере:
tabpy —config=path/to/my/config/file.conf
Улучшенная регистрация
Расширены возможности ведения журналов в TabPy для поддержки аудита кода Python на сервере, и с целью отслеживания того, какие пользователи какой код использовали. При подключении к серверу Tableau его можно установить для записи имени пользователя сервера Tableau. Инструкция по настройке ведения журнала доступна на сайте. Благодаря всем этим функциям Python в Tableau стал более динамичным, гибким и мощным.
- Учебный центр по технологиям анализа данных и BI: расписание/запись на учебные курсы, тестирование разработчиков — https://education.biconsult.ru/
- Присоединяйтесь к QUBIC – сообщество профессионалов в области BI! Наши страницы в соц.сетях – расписание учебных курсов, бесплатные учебные материалы, анонсы мероприятий: https://vk.com/club165575964 и https://www.facebook.com/qubicspb
- Неофициальный форум разработчиков QlikView & Qlik Sense Russian forum
- Канал на Youtube – много обучающих видео и записи вебинаров
- Готовые решения “Конструктор финансовой отчетности” и “Анализ продаж”