Ошибки визуализации, вводящие в заблуждение

Автор статьи — Мария Мазюк

Целью визуализации данных является облегчение восприятия массивов информации и выявления закономерностей, которые сложно заметить в текстовой таблице. Перед публикацией визуализаций аналитикам следует проверять результаты своей работы на наличие элементов, которые могут сбить с толку конечного пользователя. В данной статье мы рассмотрим основные принципы восприятия визуальной информации пользователями и наиболее частые ошибки визуализации, которые могут вводить пользователей в заблуждение и которых следует избегать. В качестве основы взят материал на elearning.tableau.com Informing Without Misleading, а также мой собственный опыт.

Атрибуты, помогающие пользователям увидеть разницу

Для восприятия визуальной информации и обнаружения закономерностей мозг использует преаттентивные атрибуты (приведены на рисунке ниже), которые помогают определить разницу без особых усилий и внимания. К таким атрибутам относятся длина, ширина, ориентация, размер, форма, выделение, позиция относительно других, группировка (расстояние между соседями и другими объектами), цветовой тон, интенсивность цвета и другие. Визуализация предполагает кодирование значений численных и дискретных полей каким-либо способом на основании преаттентивных атрибутов: текстом, символами, цветом, типом маркировки, размером, длиной, шириной и т.д.

5 принципов группировки по гештальт

Помимо преаттентивных атрибутов при дизайне визуализации следует учитывать принципы восприятия визуальной информации в качестве групп. Это поможет избежать передачи сообщения, отличного от задуманного.

Близость

Люди воспринимают элементы, находящиеся рядом друг с другом, особенно по сравнению с другими, как часть одной группы. Важно сохранять достаточное расстояние между элементами,если они не связаны логически.

Похожесть

Люди воспринимают элементы, схожие друг с другом (одного цвета, одной формы), особенно по сравнению с другими, как часть одной группы. Важно сохранять кодирование цветом и т.д. на различных графиках, если они связаны логически, и не использовать схожее кодирование для логически не связанных элементов.

Выделенность

Люди воспринимают элементы, выделенные зоной или рамкой от остальных, как часть одной группы.

Непрерывность

Если отдельные элементы похожи на части одной линии, люди воспринимают их как части единого целого.

Соединение

Если элементы объединены линией, люди воспринимают их как части единого целого. Не следует объединять линией элементы, между которыми отсутствует логическая связь, например, значения дискретной переменной.

Частые ошибки визуализации данных

— Использование размера в качестве значений дискретного поля. Пользователи с большей вероятностью воспримут размер в качестве кодирования численной переменной. Лучше использовать цвет, форму или отдельные графики для каждого значения дискретного поля.

Слева — неудачный вариант кодирования поля Category размером. Справа — улучшенный вариант с кодированием цветом.

— Обрезанные оси на графиках бар-чарт ведут к преувеличению разницы в длине максимального и минимального баров. Пользователи предполагают, что бары отображают полные значения, а не урезанную часть. Исключением может служить бар-чарт, в котором ось отображена со значения, имеющего смысл. Например, если по оси отображена средняя продолжительность сна, а бары представляют классы животных. Не имеет смысла отображать ось продолжительности сна со значения 0, так как нет неспящих животных. Началом отсчета может служить минимальная средняя продолжительность сна.

В то время как обрезанные оси на линейных графиках могут помочь выделить тренд, трудно различимый на графике с полной осью. Этот прием следует использовать осторожно, чтобы не отобразить крайне слабый несущественный тренд как сильное падение или рост.

Слева — неудачный вариант с обрезанной осью “Number of Orders”. Кажется, что в регионе South количество заказов близко к нулю. Справа — улучшенный вариант с полной осью, отображающий полные значения.

— На диаграммах рассеивания (скатерплот) и линейных графиках стандартной и ожидаемой практикой является отображение независимой переменной по оси X, и зависимой — по оси Y.

Слева — неудачный вариант расположения значений независимой переменной Quantity по оси Y. Справа — улучшенный вариант с расположением Quantity по оси X.

— Несинхронизированные оси на двойном графике легко могут быть неправильно интерпретированы.

Синхронизированные оси

Слева — неудачный вариант с двумя несинхронизированными осями Y для полей Sales и Profit, имеющих различную амплитуду. Справа — улучшенный вариант с единой синхронизированной осью Y.

— Пользователи ожидают постоянство осей на графиках для значений дискретного поля, а также при выборе иного параметра на визуализации. Непостоянство осей и незафиксированные оси при возможности выбора параметра могут привести к неверной интерпретации.

постоянство осей

Слева — неудачный вариант с непостоянством оси Y для значений дискретного поля Segment. Справа — улучшенный вариант с единой осью для трех значений поля Segment.

— Использование бар-чарт (столбчатой диаграммы) для сравнения средних значений или процентов между значениями дискретного поля, когда количество наблюдений для различных значений дискретного поля неравномерно. Лучше отобразить индивидуальные не агрегированные значения, чтобы показать, какие именно точки оказывают наибольшее влияние на среднее значение или процент.

https://maryiamaziuk.com/data-viz-blog/

Комментирование и размещение ссылок запрещено.

Комментарии закрыты.

63 queries in 0,422 seconds