Как самообслуживание данных помогает избегать опасностей «теневой аналитики»

Без той каталогизации, поддержки и безопасности, которые обеспечивают платформы самообслуживания данных, компании остаются уязвимыми для угроз кибербезопасности и дезинформации.

Данные заставляют мир вращаться. Благодаря Google Вы сможете найти ответ практически на любой вопрос за секунду. Бронирование путешествия в любую точку планеты всего в несколько кликов. А на смартфоне есть приложения практически для всего, о чем вы только можете подумать, и даже больше. Сейчас прекрасное время, чтобы любить кофе и крафтовое пиво, прекрасное время, чтобы быть потребителем данных. Жизнь никогда не была лучше, чем сейчас.

А вот когда мы начинаем работу, наши отношения с данными перестают быть такими уж дружескими. Хотя работа любого человека зависит от данных, большинство из нас изо всех сил пытаются использовать их так же легко, как и в личной жизни. На работе находить данные труднее. Это медленный процесс. Каждый сбор данных имеет собственные инструменты и «шпаргалку» для успешного использования. Зачастую нам нужны данные, которые не доступны в нужной форме, поэтому мы открываем задействуем ИТ-решения, ждем и надеемся на лучшее. Сотрудничать с другими пользователями в работе с данными далеко не так просто, как хотелось бы. Обычно решение заключается в том, чтобы скопировать данные в Excel и отправить их кому-нибудь по электронной почте. В качестве альтернативы, мы можем настроить BI-сервер или базу данных, которыми мы управляем сами, даже на сервере, скрытом в шкафу или под чьим-то столом.

Мы уже видели это раньше

Если это звучит знакомо, то так и должно быть. За последнее десятилетие люди нашли способы обходить ограничения в оборудовании и программном обеспечении, которые устанавливает ИТ-отдел, — эту тенденцию называют «теневой ИТ-отдел». Сотрудники начали приносить собственные ноутбуки, планшеты и смартфоны, пока ИТ-отдел не сделал эти устройства доступными или не принял политики «принеси свое устройство». Популярные приложения, такие как Evernote, Dropbox и Gmail, а также поставщики облачных услуг, такие как AWS и Google Cloud, быстро стали повседневными инструментами для миллионов людей на рабочем месте, открывая ощутимую уязвимость безопасности компании, которые большинство из них все еще пытаются устранить.

Компании поняли, что просто закрыть доступ к этим системам и сохранить статус-кво уже невозможно. Они научились повышать качество аппаратного и программного обеспечения, чтобы люди могли использовать управляемые системы, избавляя от необходимости брать дела в свои руки.

Новая тенденция: теневая аналитика

То, что мы видели в программном и аппаратном обеспечении за последнее десятилетие, теперь происходит с данными – явление, которое мы называем «теневой аналитикой». Люди хотят выполнять свою работу, и они найдут способ повысить производительность, если ИТ-организации не предоставят правильных инструментов. Они разочарованы своей неспособностью получить доступ к данным и использовать их, и находят обходные пути, перемещая данные в неуправляемые среды, которые обходят основные средства контроля, установленные организациями. Например, пользователи загружают данные в электронные таблицы, загружают данные в облачные приложения и даже запускают свои собственные базы данных и аналитическое программное обеспечение на своих ПК.

Теневая аналитика создает среду, в которой пользователи могут прийти к ошибочным выводам. Поскольку данные отключены от источника, пользователи могут потерять важные обновления в своих копиях, и ответы на их вопросы могут быть не актуальными. Кроме того, когда каждый пользователь управляет собственной копией данных, каждая копия может быть ошибочной по-разному. В результате этого ИТ-организациям часто задают вопрос: «У нас с коллегой разные ответы на важный вопрос – почему?»

Почему теневая аналитика имеет большое значение

Данные – это самый большой актив и самая большая ответственность большинства организаций. Угрозы кибербезопасности быстро развиваются. За последние несколько лет число фишинговых атак и краж интеллектуальной собственности выросло более чем на 50%, вымогателей — более чем на 160%, а среднее время обнаружения утечек достигло 200 дней. Вспомните некоторые из недавних новостных заголовков по крупным компаниям, таким как Equifax, Yahoo и Target – пострадали миллиарды людей.

Основной движущей силой для расширения этих угроз является то, что сфера для возможных кибератак радикально увеличилась за последнее десятилетие, и число участников угрозы возросло. С каждым новым устройством (например, смартфонами, IoT, автоматизированными датчиками), каждым новым приложением и каждой копией данных создается новая уязвимость, которая потенциально открывает двери к целой организации.

Данные и системы каждой организации – это потенциальные цели для атак со стороны наемных хакеров, хорошо организованных преступных группировок и спонсируемых государством инициатив. Угрозы становятся все более изощренными с появлением социальной инженерии, современных постоянных угроз (APT), вымогателей и мошенничества, совершаемого в результате кражи цифровых данных. Программного обеспечения и услуг кибербезопасности стает недостаточно, поскольку, потеряв контроль над своими данными, ваши шансы на герметичную защиту невелики даже при использовании самых современных систем безопасности сетей и конечных точек.

Появляется новая парадигма: самообслуживание данных

Чтобы повысить безопасность, доступность и удобство использования своих данных, организации сосредоточили свое внимание на нескольких функциональных областях. Сегодня они понимают, что самообслуживание данные необходимо, чтобы избежать рисков, связанных с теневой аналитикой. Благодаря самообслуживанию данных организации теперь могут дать потребителям данных такой опыт, который сделает их более продуктивными, чем если бы они взяли дело в свои руки.

Давайте подробнее рассмотрим основные функциональные области анализа данных, чтобы изучить их важность и преимущества подхода самообслуживания.

Ускорение данных

Природа анализа и науки о данных носит итеративный характер. Потребители данных задают такие вопросы, которые приводят к новым идеям и следующим вопросам. Каждый запрос должен быть интерактивным, независимо от источника или размера данных, и с использованием любого инструмента, такого как Tableau или Python. Благодаря теневой аналитике пользователи создают выборки для бизнес аналитики или кубы OLAP для ускорения доступа к данным. Поскольку каждый человек работает независимо, создается много избыточных копий, не каждую можно контролировать и отключить от источника. Кроме того, эти копии медленно обновляются и создают дополнительную когнитивную нагрузку на пользователя (то есть, к какому кубу я подключаюсь для данного запроса?)

Нецелесообразно сканировать все данные по каждому запросу. В течение десятилетий системы применяли такие методы для ускорения доступа к данным, как индексы, сортировка, разбиение и агрегирование данных для поддержки различных шаблонов запросов. Традиционно эти подходы создаются администратором, и конечные пользователи должны понимать, какая оптимизация лучше всего подойдет для данного запроса. В подходе самообслуживания данных эти оптимизации будут невидимы для конечного пользователя. Система должна иметь возможность использовать их при необходимости, не полагаясь на конечного пользователя. Кроме того, система должна быть в состоянии автономно определять лучшие оптимизации и со временем адаптироваться к появляющимся шаблонам запросов.

Каталог данных

Потребители данных пытаются найти те данные, которые важны для их работы. Не все данные будут равными – важно определить конкретные наборы данных как проверенные и авторитетные для всех пользователей. С теневой аналитикой нет центрального каталога. Вместо этого пользователи хранят личные записи об источниках данных и качестве данных, что означает отсутствие управления и отсутствие проверенного смысла во всей организации.

При подходе самообслуживания данных каталог является автоматическим – когда новые источники данных переводятся в оперативный режим, система должна автоматически обнаруживать базовую схему и адаптироваться по мере развития источника. Организации разрабатывают богатые семантические описания своих данных, которые также должны быть доступны для поиска. Кроме того, наборы данных, которые создаются конечными пользователями, также нужно каталогизировать для легкого обнаружения и анализа.

Виртуализация данных

Для организации практически невозможно централизовать все данные в одной системе. Аналитические инструменты, включая инструменты бизнес аналитики, такие как Tableau, и инструменты науки о данных, такие как Python и R, предполагают, что все данные находятся в одной реляционной базе данных. С помощью теневого анализа данные перемещаются из одной системы в формат, доступный для таких инструментов, как Tableau или Python, обычно CSV. Это создает копию, которой нельзя управлять, она отсоединяется от исходных данных.

Потребители данных должны иметь одинаковый доступ ко всем наборам данных, независимо от базовой технологии или местоположения системы. Доступ должен осуществляться через SQL, поскольку он широко поддерживается всеми инструментами и хорошо понятен большинству пользователей.

Курирование данных

Единой «формы» данных, которая работает для всех не существует. Каждому потребителю данных нужны данные в определенной форме, так чтобы они были полезны для выполняемой задачи. Это может означать фильтрацию данных различными способами, смешивание нескольких наборов данных, преобразование типов данных, форматирование данных различными способами и многое другое. В теневой аналитике курирование выполняется путем создания копий данных, которые обычно не управляются и не связаны с их источниками.

Потребителям данных нужна способность взаимодействовать с наборами данных из контекста самих данных, а не только из простых метаданных, которые не могут рассказать всю историю. Потребители данных должны иметь возможность изменять данные в соответствии со своими потребностями без написания кода или изучения новых языков. При подходе к самообслуживанию данных эти возможности предоставляются без создания копий данных – ни одна организация не захочет делать тысячи копий своих данных.

Происхождение данных

Поскольку к данным обращаются потребители данных и в различных процессах, важно отслеживать происхождение данных, кто обращался к данным, как к данным обращались, какие инструменты использовались и какие результаты были получены. В случае конфиденциальных данных, ошибочных данных или взломов данных очень важно иметь возможность полностью установить происхождение данных. В теневой аналитике данные доступны и копируются независимо от какого-либо процесса управления. Нет четкой записи о происхождении или хранении данных.

Поскольку каждый потребитель данных способен создавать наборы данных для себя, важность происхождения данных становится первостепенной: ни одна компания не хочет управлять тысячами копий каждого набора данных. Очень важно, чтобы это происхождение отслеживалось автоматически – организации не могут полагаться на то, что конечные пользователи сами будут регистрировать свою работу в центральной системе. Вместо этого, когда пользователи изменяют форму и обмениваются наборами данных друг с другом через виртуальный контекст, платформа данных самообслуживания может беспрепятственно отслеживать эти действия и все состояния данных по пути, обеспечивая также возможности полного аудита.

Открытый источник

Поскольку данные важны для каждой области любого бизнеса, базовые форматы данных и технологии, используемые для доступа и их обработки, должны иметь открытый исходный код. Организации не должны быть привязаны к конкретному поставщику или коммерческой модели. В теневой аналитике пользователи сами решают, какие инструменты использовать, включая инструменты собственного производства, инструменты от неизвестных поставщиков и облачные сервисы, доступ к которым не контролируется организацией (например, если сотрудник уходит, как будут осуществляться доступ к данным?)

Платформы самообслуживания данных базируются на открытых стандартах, таких как Apache Parquet, Apache Arrow и Apache Calcite, для хранения, запроса и анализа данных из любого источника. Кроме того, интерфейс конечного пользователя также имеет открытый исходный код и работает в любом современном браузере, предоставляя доступ к инструментам визуализации и анализа через открытые стандарты, такие как ODBC, JDBC и REST.

Контроль безопасности

Организации защищают свои данные с помощью элементов управления безопасностью, которые управляют аутентификацией (вы являетесь тем, кем вы себя называете), авторизацией (вы можете выполнять определенные действия), аудитом (запись действий, которые вы выполняете) и шифрованием (вы можете только читать данные если у вас есть правильный ключ). В теневой аналитике пользователи загружают данные в среды, которые находятся за пределами этих центральных элементов управления, подвергая компании ненужному риску.

Платформы данных самообслуживания интегрируются с существующими средствами безопасности организации, такими как LDAP и Kerberos. Они учитывают элементы управления базовых источников данных и не создают копии данных, которые находятся за пределами этих элементов управления.

Заключение

В вопросе защиты данных, компаниям необходимо найти правильный баланс между контролем и удобством – контролем данных и систем безопасным, способом проверки и удобством для конечных пользователей, чтобы они не изобретали новых способов обхода этих средств управления. Платформы данных самообслуживания – это новый подход с открытым исходным кодом, который помогает предотвратить появление теневой аналитики. Они сохраняют и расширяют существующие средства управления безопасностью и дают потребителям данных возможность использовать данные, которые делают их более продуктивными, чем в случае, когда вы берете дело в свои руки.

Вы можете оставить комментарий, или ссылку на Ваш сайт.

Оставить комментарий

64 queries in 0,198 seconds