Парочка советов по выбору визуализации

TLDR: в самых кратких руководствах указывают, какую визуализацию использовать, исходя из того, что люди должны увидеть в данных. На этапе анализа, когда вы еще не знаете, что там нужно видеть, такой выбор сделать сложнее. Вместо этого я создал новый селектор, который базируется на структуре отображаемых данных.

Как бы вы нанесли эти данные на график?

Представьте, что я даю вам 8 цифр и прошу вас нанести их на график так, чтобы вы могли раскрыть природу этих данных.

Краткие руководства по визуализации (также известные как «селекторы диаграмм») – это отличное решение данной проблемы, которое позволяет абстрагироваться от изощренных теорий, чтобы дать прямое предложение о том, как представлять данные. Эти руководства, как правило, организованы для зрителя – захочет ли разработчик, чтобы зритель видел ранжирование, изучал распределение, проверял отношения или делал сравнение? Эти руководства затем используют задачи для классификации (или блок-схемы) жизнеспособных альтернативных проектов. Студенты и практики (и исследователи) ценят то, как эти инструменты помогают им избавиться от перегруженности опциями и не дают зацикливаться на одной возможности.

Есть несколько отличных селекторов диаграмм на основе задач (вот пример из Financial Times), так зачем делать новый? Выбор визуализации на основе задачи может быть полезным ограничением, когда приходит время сообщить об известной картине данных аудитории. Но на этапе анализа, когда у вас есть только смутные представления о потенциально важных задачах это будет менее полезно. Ранний выбор средства визуализации, которое подходит для конкретной задачи, может даже заставить вас сосредоточиться на одном шаблоне и пропустить другой. А некоторые задачи определены неоднозначно. Я нахожу «Увидеть взаимосвязи» и «Провести сравнение» крайне размытыми задачами. Разве Тюфте не говорил, что все на свете – это сравнение? Как правило, лучший формат визуализации для аналитиков – это тот, который гибко используется в различных задачах, помогая в общем исследовании картины данных.

Но если не сама суть задачи, то что же еще поможет сделать выбор? Когда я решил установить новый селектор, мне понравилась простая объективность выбора средства визуализации в соответствии со структурами, которые необходимо отобразить.

Небольшой набор данных ниже иллюстрирует обычные типы количественных данных в любом файле Excel: категории, упорядоченные категории и непрерывные метрики. Как только вы решите, какие столбцы набора данных следует объединить, селектор (теоретически) предложит вам лучшие варианты. Ниже я расскажу, как это работает.

У вас есть куча метрик (чисел), возможно, вы хотите связать их по отдельным категориям (обычно это делает гистограмма), или, может быть, две категории одновременно, как в двумерной таблице (за это я и люблю столбчатые диаграммы). Или, может быть, вы хотите, чтобы эти метрики были организованы вдоль непрерывной оси (другой метрики), как при построении значений, которые меняются с течением времени (как правило, линейный график), а затем, возможно, вы захотите показать, что они разбиты на отдельные категории (обычно это линия-граф с несколькими линиями на нем). Если вместо абсолютных значений метрики следует интерпретировать как проценты, это обычно влечет за собой пространственное размывание графика в виде кругов или столбцов.

Образец данных

Горизонтальная ось из краткого руководства «Дискретные категории к непрерывным метрикам»

Я исследую и анализирую свои данные с помощью Tableau, он автоматически меняет дизайн визуализации в зависимости от того, организует ли визуализация данные по полям, обозначенным как дискретные или непрерывные (что, в свою очередь, основано на истории работы в области визуализации данных). Это дискретное и непрерывное различие стало основным организационным принципом для выбора горизонтальной оси. Метрики, организованные дискретными ячейками категорий, находятся слева, а метрики, организованные другими непрерывными метриками – справа. Метрики, организованные их совместным неуклюжим упорядочиванием категорий, находятся на средней позиции.

Есть два ключевых изменения дизайна, которые происходят слева направо. Во-первых, организация метрик по дискретным категориям (левая сторона селектора диаграмм) приводит к гистограммам с несколькими дискретными столбцами, а организация метрик по другим непрерывным метрикам (справа) приводит к линейным графикам с непрерывными линиями. Это изменение дизайна сильно влияет на то, правильно ли зрители интерпретируют структуру данных, как это видно в психологических экспериментах (см. графики роста населения и типичные соответствующие интерпретации ниже).

Значение высоты для граждан двух стран. Серьезно, люди буквально говорят такое.

Во-вторых, для дискретных категорий столбцы слева организованы вертикально в виде «графа строк», так что метки «A, B, C», которые на самом деле обычно представляют собой целые слова или фразы, могут иметь пространство для записи в виде текста в горизонтальном направлении. В вертикально организованной столбчатой диаграмме эти слова должны быть сильно сжаты или перевернуты по диагонали или по вертикали, и это трудно считывать. Для непрерывных метрик справа (оранжевые упорядоченные значения категорий в середине) значения организованы слева направо, потому что именно этого и ожидают люди. В человеческом сознании время движется слева направо, и так же увеличиваются непрерывные величины, как числовая ось, размещенная над доской в вашем классе.

Принцип вертикальной организации более комковатый. В верхнем ряду отображаются метрики, организованные записями одной категории (один набор столбцов или точек или один набор точек, соединенных линией или областью). Затем в строках внизу показаны похожие схемы организации метрик по записям в двух категориях одновременно, как в двумерной таблице. В следующем разделе, который повторяет ту же организацию, но для метрик, которые должны интерпретироваться как проценты или части целого, а не как независимые абсолютные значения.

В нижнем разделе с синим фоном левая сторона просто показывает привлекательные способы отображения отдельных чисел или процентов, а правая сторона показывает способы сопоставления двух непрерывных метрик друг с другом (в основном разновидности перпендикулярно скоординированных диаграмм рассеяния, хотя также есть появление параллельных координат). Обратите внимание, что метрики на диаграммах рассеяния по-прежнему делятся на записи категории (количество записей в этой категории определяет количество точек на диаграмме рассеяния или количество линий для параллельных координат).

Возвращаясь к таблице из 8 чисел вверху, структура данных представляет собой метрики (проценты), сгруппированные по 2 категориям (ABC – это регион: N, S, E, W, а XYZ – это тип продукта: виджеты, корзинки). Таким образом, если метрики следует рассматривать как абсолютные значения, лучше использовать таблицу гистограмм, а если процент является предпочтительным фокусом, то в качестве альтернативы следует рассмотреть Stacked Bars (Row).

Это требует некоторого времени для изучения, просто ужасный вариант для быстрой коммуникации с аудиторией. Но для аналитиков, или когда у вас есть 3 минуты, чтобы обучить свою аудиторию, как читать такой график, он может быть полезным визуализациями для сложных данных.

Я попытался включить только известные визуализации, типы, которые присутствуют в существующих типичных селекторах диаграмм. Я включил несколько новомодных вариантов, потому что я думаю, что их стоит изучить. Диаграммы Маримекко, связанные диаграммы рассеяния и параллельные координаты – потребуется немного времени на то, чтобы освоить их, но они могут быть мощным инструментом в визуализации.

Бизнес-аналитики, пожалуйста, прекратите использовать это

Я включил древовидные карты, которые я на удивление часто вижу в деловом мире, прежде всего, чтобы предотвратить их использование. Древовидные карты предназначены для показа большого иерархического набора данных с двумя метриками, закодированными по отдельности в виде размера и цвета, но я часто вижу, что они используются для отображения неиерархических данных, как правило, с размером и цветом (сбивает с толку), избыточно кодируют одни и те же значения, как правило, с расходящейся цветовой шкалой (так, чтобы маленькие прямоугольники были красными, средние – серыми, а большие – голубыми). Тысячи рабочих часов потеряны в попытках разобраться в этом графике, который должен был быть просто гистограммой.

Та же ДНК.

Вы думаете, что знаете что-то до, тех пор, пока вам не придется записать это, объяснить кому-то или создать что-то на его основе. В этот момент вы начинаете понимать, что знаете меньше, чем думали, или многое из того, что вы знаете не имеет ценности. Создание этого селектора диаграмм помогло мне посмотреть на визуализации по-новому. В какой-то момент я перестал понимать, где находится тепловая карта (на тот момент она сместилась минимум к трем разным точкам на странице). В настоящее время это способ разделить метрики по двум упорядоченным категориям, но я по-прежнему открыт для его перемещения. Теперь я вижу, что диаграммы рассеяния и карты Рослинга имеют одну и ту же ДНК, причем карты используют широту и долготу в качестве осей диаграммы рассеяния (именно так Tableau обрабатывает карты).

Я понял, что у меня нет никаких доказательств чтобы утверждать, например, что столбчатые таблицы лучше, чем чередующиеся столбцы, хотя одно из исследований показывает обратное. Я думаю, что правильный тест пока все еще не проведен. Эта рекомендация может быть весьма спорной, поскольку столбчатая таблица ставит некоторые штриховые сравнения вдоль внеблоковой базовой линии, что делает сравнение менее точным (потому что вы можете только сравнить длину и теряете способность сравнивать концы столбцов). Но я думаю, что небольшое снижение визуальной точности компенсируется большей ясностью и гибкостью двумерной визуальной организации таблицы. Также нет эмпирических доказательств утверждения селекционера о том, что усеченная ось Y на линейном графике хуже, чем гистограмма, и я могу в итоге удалить этот фактоид.

Большинство разработчиков визуализаций не видят причин, чтобы когда-либо делать такое, но есть горстка аналитиков, которые клянутся, что они лучше воспринимают корреляцию

Стандартный римейк дизайнера визуализации выше

Создание и использование селектора диаграмм заставило меня научиться видеть сквозь визуализации структуру их базовых данных, и это помогает преодолеть фиксацию на дизайне. На недавнем семинаре мы критиковали визуализацию денежного потока, где деньги поступали из набора источников X, Y и Z, и каждый источник был дифференцированно распределен по расходам A, B и C. Первоначально был поток в стиле Диаграммы Сэнки, куда направлялись деньги из каждого источника. Это были милые, но непрактичные спагетти. Даже я застрял с этим дизайном, и мне пришлось заставить себя взглянуть на руководство, чтобы определить, что Маримекко действительно хорошо вписывается в структуру этих данных.

Север и Юг асимметричны, Восток и Запад похожи

Это руководство фокусирует свой выбор на структуре данных, а не на задаче просмотра. Но обе модели важны. Оно указывает пользователю на группу визуализаций, но я советую все же рассмотреть задачу, быстро набросав или нанеся на график ваши данные в нескольких форматах, и посмотрев, какой из них презентует ваш шаблон лучше всего (или перекрестные ссылки с помощью руководства на основе задач). Например, зеркальный столбец справа кричит «обратная зависимость» так, как таблица выше никогда не могла бы показать, даже имея те же данные. Вероятно, есть способ добавить в настоящее руководство 3-е измерение «задачи», и я с нетерпением жду, когда кто-нибудь выяснит, как визуализировать этот куб.

Вы можете оставить комментарий, или ссылку на Ваш сайт.

Оставить комментарий

64 queries in 0,229 seconds