Почему «анонимные данные» не такие анонимные

Почему «анонимные данные» не такие анонимные

18-10-2020 09:35:59

Очистка данных от «личной информации» сложнее, чем вы думаете



B 2015 году Латания Суини, исследователь, изучающий анонимность и конфиденциальность данных, опубликовала исследование, специально посвященное деанонимизации данных, защищенных HIPAA, в Вашингтоне. В этом штате ( и многих других ) компании и частные лица могут приобретать анонимные данные медицинских карт. Суини приобрела данные по законным каналам, которые, как она отметила, включали «практически все госпитализации, происходящие в штате за определенный год», и множество подробностей о тех посещениях больницы, включая диагнозы, процедуры, лечащего врача, сводку расходов, как счет был оплачен и многое другое. Записи были анонимными в том смысле, что в них не было имени или адреса пациента, но они включали пятизначные почтовые индексы пациентов США.

Затем, используя архив новостных источников штата Вашингтон, Суини искал любую статью, напечатанную в 2011 году и содержащую слово «госпитализирован». Поиск выявил 81 статью. Проанализировав газетные статьи и анонимный набор данных, Суини «уникально и точно сопоставила медицинские записи в государственной базе данных для 35 из 81 новостного материала», - написала она. В этих новостях также содержалось имя пациента, что фактически сводило на нет усилия по анонимизации этих 35 пациентов.

Данные питают современный мир. Данные о нас контролируют, какие новости, фильмы и рекламные объявления мы видим. Данные определяют, какие из сообщений наших друзей поступают в наши социальные сети. Данные диски, которые потенциальные романтические партнеры появляются в наших приложениях знакомств. Научные исследования, которые долгое время были сфокусированы на данных, продолжают продвигаться в область больших данных. Исследователи собирают и обрабатывают массивные наборы данных - и платформы капитализма наблюдения прямо с ними.

Большая часть этих данных является конфиденциальной. Запас данных Google может включать вашу полную историю поиска с течением времени. В зависимости от того, что вы ищете, это может вызвать приступ депрессии, частный перегиб, состояние здоровья и многое другое . Запас Facebook нашего прошлого поведения, комментариев и фотографий довольно показателен для многих людей. Мало кому из нас будет удобно дать новому знакомому полную историю нашей деятельности с кредитными картами. Наши медицинские данные защищены HIPAA, потому что мы признаем их чувствительность.

Правительства, корпорации и научно-исследовательские институты продолжают развертывать массивные сборы данных.
Итак, почему мы даем нашу самую личную информацию? Большинство людей получают значительные выгоды от этого сбора данных. Данные Google улучшают результаты поиска и помогают Gmail отфильтровывать спам. История вашей кредитной карты помогает вашему банку обнаруживать мошеннические покупки. Совокупная история покупок может помочь магазинам управлять своими запасами и сократить количество отходов. Медицинские данные помогают исследователям и врачам изобретать новые лекарства и улучшать планы лечения. Действительно, почти все формы научных исследований в значительной степени зависят от данных, чтобы делать и оценивать заявления.

Но эти преимущества не без риска. Правительства, корпорации и научно-исследовательские институты продолжают развертывать массивные сборы данных. Эта коллекция - только начало пути ваших данных. Данные переупаковываются, объединяются с данными из других источников и продаются через посредников данных, законным и иным образом. Следующие данные предназначены для продажи через легальные или нелегальные каналы - и часто оба.

Ваше местоположение, как прямо сейчас, так и исторически.
Ваши транзакции по кредитной карте.
История посещений вашего сайта.
Ваши учетные данные для входа на эти сайты.
Ваш номер социального страхования.
Ваша история болезни .

Даже если вам «нечего скрывать» в чужих руках, это знание делает вас более пригодным для использования. В связи с этим предпринимаются постоянные усилия по очистке данных личной информации при ее хранении или продаже. В некоторых случаях существуют юридические требования для анонимизации данных, такие как требования HIPAA к медицинским данным (хотя юридическая защита HIPAA не так сильна, как думает большинство людей ). Аналогичным образом, новый Общий регламент ЕС о защите данных (GDPR) устанавливает меньше ограничений на использование анонимных данных по сравнению с данными с личной идентификационной информацией.

В других случаях компании прилагают усилия для анонимизации данных, которые они собирают в рамках своей бизнес-стратегии. Apple является хорошим примером этого. Apple не продает данные о клиентах, и наличие большого количества данных может сделать компанию мишенью для хакеров. Вместо того чтобы собирать и обрабатывать массивные наборы данных, такие как Google и Facebook, Apple сократила сбор данных, приложила значительные усилия для анонимизации собираемых данных и усилила свои усилия по обеспечению конфиденциальности в своих маркетинговых материалах.

Эти меры доблестны и заслуживают того, чтобы их предпринять. К сожалению, исследования показали, что многие попытки анонимизации данных уязвимы для тактики повторной идентификации, особенно когда альтернативные источники данных доступны с некоторой степенью совпадения.

Одно из знаковых тематических исследований в области деанонимизации, опубликованное в 2008 году , включало набор данных пользователей Netflix и их рейтинги фильмов. Набор данных был анонимизирован и опубликован в рамках конкурса по улучшению механизма рекомендаций Netflix. Тактика анонимизации включала случайное изменение некоторых рейтингов и дат рейтингов для примерно 480 000 пользователей, которые были включены в набор данных.

Несмотря на эти нарушения данных, исследователи пришли к выводу, что «для деанонимизации записи среднего подписчика из призового набора данных Netflix требуется очень мало вспомогательной информации. С восемью рейтингами фильмов (из которых два могут быть совершенно неверными) и датами, которые могут иметь 14-дневную ошибку, 99% записей могут быть однозначно идентифицированы в наборе данных ». Исследование показало, что для многих людей требуется гораздо меньше информации установить уникальность: «Для 68% [пользователей] достаточно двух оценок и дат (с трехдневной ошибкой)».

Cтратегия деанонимизации


По мере того, как все больше данных о нас становится общедоступным, эти стратегии деанонимизации становятся проще.
Опираясь на то, что несколько рейтингов могут быть использованы для идентификации уникального, но все еще неназванного лица, исследователи обратились к общедоступным рейтингам IMDb, чтобы доказать, что они также могут разоблачать людей. После сбора выборки оценок от 50 пользователей IMDb исследователи применили их методы деанонимизации и смогли идентифицировать двух из 50 пользователей с очень высокой достоверностью.

Рейтинги фильмов могут показаться безобидными - они явно менее чувствительны, чем медицинские записи - но они все еще могут показывать. Исследователи привели этот пример от одного из двух идентифицированных лиц: многие из фильмов, которые этот человек оценивал на Netflix, не были оценены этим человеком на IMDb. Деанонимизация набора данных Netflix выявила информацию, которая еще не была общедоступной. Среди этих фильмов были « Сила и террор»: «Ноам Хомский в наше время» , « Фаренгейт 9/11» , « Иисус из Назарета» , «Евангелие от Иоанна , Бент и Квир в народе»., Их оценки этих шести фильмов могут потенциально раскрыть что-то о политических взглядах субъекта, религиозной принадлежности и сексуальной ориентации - все три из них используются для дискриминации людей по-разному.

Очевидно, что наслаждаться ( или ненавидеть) парой фильмов на самом деле ничего не доказывает чью-то идеологию, но, особенно в репрессивных режимах, это может не иметь значения. В разгар маккартизма многие американцы были обвинены в том, что они коммунисты, внесены в черный список и даже заключены в тюрьму на основании необоснованных утверждений. Современные авторитарные режимы так же не готовы к доказательствам вне всякого разумного сомнения.

Результат замечательный, учитывая, что выборки как Netflix, так и IMDb были случайными - не было никаких гарантий, что кто-либо из 50 случайных пользователей IMDb был даже в наборе данных Netflix, особенно учитывая относительно небольшой размер выборки пользователей IMDb. С одной стороны, набор данных Netflix включал рейтинги более чем 480 000 подписчиков, поэтому деанонимизация двух из них ощущается как капля в море. С другой стороны, если бы исследователи отобрали 480 000 пользователей IMDb, они наверняка могли бы идентифицировать еще больше.

Чтобы кому-то навредить, необходимо деанонимизировать только его индивидуальные данные, а не весь набор данных. Связывание одного человека, представляющего интерес, с его ВИЧ-положительным статусом, политической принадлежностью, сексуальной ориентацией или гендерной идентичностью, среди прочего, может представлять серьезное нарушение конфиденциальности этого человека и подвергать его риску. Это представляет собой особую проблему в нашем обществе, управляемом данными: в совокупности данные являются более мощными, но чем больше мы собираем, тем легче идентифицировать кого-либо в наборе данных. По мере того, как все больше данных о нас становится общедоступным, эти стратегии деанонимизации становятся проще. Причина, по которой исследователи отменили отзывы только от 50 пользователей IMDb, заключалась в том, чтобы соблюдать соглашение об условиях обслуживания IMDb - но не все играют по правилам.

Воровство данных


Наборы данных все чаще становятся утекшими и украденными. FEMA утекла записи о 2,3 млн человек в начале этого года. Во время печально известного взлома Equifax была украдена информация о более чем 145 миллионах человек . Беспокойные базы данных иногда остаются незащищенными, как, например, обнаруженная исследователем в области безопасности, содержащая имена, адреса и предполагаемую «готовность к размножению» более чем 1,8 миллиона китайских женщин .

Согласно Центру обмена правами на неприкосновенность частной жизни, который с 2005 года ведет список нарушений базы данных, за эти 14 лет произошло 8 804 нарушения данных, в результате чего было выявлено более 11,5 миллиардов записей. Это означает, что с 2005 года мы усредняли 1,7 нарушения данных и 2,2 миллиона записей в день. Это как раз то, что доступно из-за преступности и халатности. Когда мотивированные сущности начинают собирать все эти данные вместе, каждый новый анонимный набор данных становится все более восприимчивым к такой корреляции.

Эти проблемы не обязательно являются новостями для ученых, занимающихся вопросами конфиденциальности. В 2010 году адвокат по вопросам конфиденциальности Пол Ом опубликовал подробное исследование этих проблем в « Юридическом обзоре UCLA» под названием « Сломанные обещания конфиденциальности: ответ на неожиданный отказ от анонимизации» . Около десяти лет назад Ом утверждал, что «хотя это Действительно, злонамеренный злоумышленник может использовать PII [личную информацию], такую ​​как имя или номер социального страхования, чтобы связать данные с идентификационной информацией, так как оказывается, что злоумышленник может сделать то же самое, используя информацию, которую никто не может классифицировать как личную ».

Ом ссылается на некоторые из более ранних исследований Суини , в которых она обнаружила, что 87% людей в переписи США 1990 года могут быть однозначно идентифицированы только двумя частями информации: их датой рождения (день, месяц и год) и их пятизначным почтовым индексом , Ом также сослался на исследование конкуренции Netflix и другие примеры, прежде чем сделать вывод, что «используя традиционные методы анонимизации, основанные на выпуске и забытии, PII, любые данные, которые даже очень полезны, никогда не могут быть полностью анонимными, а небольшой выигрыш в полезности приводит к большему увеличению полезности потери за уединение ».

Исследования продолжают подтверждать основной результат - то, что шокирующе небольшое количество информации может быть лично идентифицировано, особенно с учетом огромного количества данных, доступных противнику для сопоставления.

В 2013 году исследователи обнаружили, что данные о местоположении очень уникальны, что затрудняет их анонимность. Исследователи обнаружили, что с помощью набора данных, созданного путем записи того, к какому сотовому телефону телефон был подключен один раз в час, 95% устройств могут быть однозначно идентифицированы только четырьмя точками данных; 50% устройств могут быть однозначно идентифицированы всего двумя точками данных. Если данные более детализированы (отслеживание GPS вместо вышек сотовой связи или до минуты, а не до часа), сопоставление становится проще.

В 2018 году New York Times описала, как журналисты смогли на законных основаниях получить набор данных «анонимных» данных о местоположении, а затем идентифицировать лиц в этом наборе данных . Для одного человека, показанного в истории « Таймс» , набор данных включал запись местоположения в среднем каждые 21 минуту. Это было достаточно подробно, чтобы журналисты « Таймс » могли определить, когда она пошла к врачу, приблизительно, сколько она там пробыла, когда она навещала своего бывшего парня, когда она ходила в спортзал, и многое другое.

Cоциальная ценность


Самая сложная часть этой проблемы заключается в том, что, несмотря на потенциальную возможность злоупотреблений, хорошие данные создают большую положительную социальную ценность.
Многие анонимные наборы данных могут косвенно указывать ваше местоположение, например, при личной покупке кредитной карты или посещении больницы. Но противник также может легко перейти в старую школу: если вы знаете, где кто-то живет, вы можете быстро отфильтровать большой анонимный набор данных только по тем людям, которые часто находятся поблизости по утрам и вечерам. Если вы знаете, где работает этот человек, вы можете фильтровать дальше. Для ряда людей в таком наборе данных этих двух фактов будет достаточно для деанонимизации остальных данных о их местонахождении.

Данные о местоположении могут быть чрезвычайно показательными. Представьте, что за последние пять лет ваши данные о местонахождении находятся в руках мошенника, вымогателя, агента репрессивного режима или даже просто скрупулезного менеджера по найму. Есть ли места, которые вы посетили, которые могут быть использованы против вас? Даже в либеральных западных демократиях, таких как Соединенные Штаты, люди подвергаются преследованиям , посылают смертельные угрозы и даже убиваются просто из-за того, что находятся в рамках планового родительства . Представьте, что агенты северокорейского лидера Ким Чен Ына или филиппинского президента Родриго Дутерте могут сделать с диссидентами с широким спектром данных о местоположении.

Самая сложная часть этой проблемы заключается в том, что, несмотря на потенциальную возможность злоупотреблений, хорошие данные создают большую положительную социальную ценность. Мы хотим, чтобы медицинские исследователи создавали новые лекарства и методы лечения, и мы хотим, чтобы они оценивали эффективность этих методов лечения. Мы хотим, чтобы наши дома оптимально регулировали собственную температуру для повышения эффективности. Мы хотим, чтобы Google сказал нам, что на дороге впереди скопление, и что мы должны перенаправить маршрут. Мы хотим получить выгоду от больших данных - без недостатков деанонимизации.

Там нет серебряной пули. Мы должны сделать компромиссы. Мы уже уступили часть нашей конфиденциальности, и, по всей вероятности, в будущем мы откажемся от большего, но есть способы уменьшить вероятность злоупотреблений.

Защита конфиденциальных данных и предотвращение несанкционированного доступа к базам данных должны быть приоритетом для всех, кто собирает данные. К сожалению, лучшие практики обеспечения безопасности были запоздалой мыслью для многих, собирающих личные данные. Будет больше утечек данных, но благодаря организационным обязательствам по обеспечению безопасности мы можем сделать их менее распространенными, трудными для выполнения и более рискованными для злоумышленников.

Регуляторные органы должны продолжать улучшать права на конфиденциальность данных для людей во всем мире. GDPR стимулирует компании хранить меньше данных и прилагать усилия для анонимизации данных, которые они хранят - это хорошо, даже если они не эффективны на 100%. Если вероятность взлома базы данных сразу же приведет к получению полезных данных, это будет делать меньше людей. Регуляторные органы также должны более внимательно относиться к брокерам данных и принимать меры для обеспечения адекватной анонимности продаваемых данных.

Точно так же каждый, кто занимается сбором и хранением данных, должен быть в курсе последних исследований анонимности. Такие тактики, как дифференциальная конфиденциальность,  когда в наборы данных перед публикацией добавляется некоторое количество случайного шума, могут снизить эффективность атак на корреляцию данных. Apple и Google приложили значительные усилия для принятия различных стратегий конфиденциальности, и другие должны последовать их примеру.

В своем опросе 2010 года Ом отметил, что существует фундаментальный компромисс между полезностью набора данных и его способностью к анонимности. Как общество, мы должны вести более откровенный разговор об этом компромиссе. Большинство из нас искренне хотят, чтобы сила больших данных была раскрыта, потому что она может действительно улучшить мир - и нашу собственную жизнь. Тем не менее, простое существование огромных объемов данных само по себе является риском для конфиденциальности. Когда мы отказываемся от лишней приватности, общество деградирует, и в чужих руках большие данные могут разрушить наши свободы.


САМОЕ ОБСУЖДАЕМОЕ

...
Титан в воздухе
18-10-2020 09:35:58
Это не самолет – это Мрия!!!...
...
Лучшие бюджетные ноутбуки на 2020 год
18-10-2020 09:35:59
Как выбрать лучший ноутбук в 2020 году...
...
Технологические тенденции в 2020 году
18-10-2020 09:35:59
Технологи будущего уже сегодня...
...
Самостоятельная поездка автомобиля под управлением искусственного интеллекта
18-10-2020 09:35:58
Самый далекий перезд без водителя в истории искуственного интеллекта....
...
Ford Bronco наконец дебютирует 9 июля
18-10-2020 09:35:58
После задержек, связанных с коронавирусом, у долгожданной Бронко Форда официально объявлена ​​дата....
...
Tesla Semi готова к «массовому производству»
18-10-2020 09:35:58
Но генеральный директор не указал точные сроки начала производства электрического грузовика....
...
25 самых продаваемых легковых автомобилей, грузовиков и внедорожников 2020 года (пока)
18-10-2020 09:35:58
Хотя пандемия коронавируса привела к хаосу в продажах автомобилей, мы подсчитали рейтинг самых продаваемых в первом квартале....
...
Электрический Mustang
18-10-2020 09:35:58
Ford представляет электрический Mustang с «потрясающим» ускорением...
...
Cамые большие дизайнерские моменты 2018 года
18-10-2020 09:35:59
Мы попросили дизайнеров рассказать нам, что они считают самой важной вещью, которая произошла в отрасли в этом году....
...
Airtable
18-10-2020 09:35:59
Простая в использовании система управления реляционными базами данных...

НАШИ РЕКОМЕНДАЦИИ

Toyota Supra в 2021 году
Toyota Supra в 2021 году
Toyota Supra 2020 года не получит дооснащения, чтобы соответствовать увеличению мощности в 2021 году...
9 различных вариантов использования console log
9 различных вариантов использования console log
Каждый из нас использовал console.logдля отладки больше, чем нам хотелось бы признать....
Расслабление, снятие стресса и развитие сознания
Расслабление, снятие стресса и развитие сознания
Иногда в жизни бывают дни.......
Послушай других и сделай наооборот
Послушай других и сделай наооборот
Основатель Tesla и SpaceX воплотил в жизнь одну идею, противоречащую общепринятому мнению, и это помогло ему заработать миллиарды....
Красный флаг или работа не Вашей мечты.
Красный флаг или работа не Вашей мечты.
В последнее время развелось (были всегда) много организаций на рынке - которые надо обходить стороной....


ИНТЕРЕСНОЕ

Понимание карты и набора в JavaScript
Понимание карты и набора в JavaScript
Эта статья была изначально написана для DigitalOcean ....
Lazareth Wazuma от Феррари
Lazareth Wazuma от Феррари
Lazareth Wazuma V8F Quad – Engine By Ferrari...
20 самых важных секретов настоящих отношений
20 самых важных секретов настоящих отношений
Не простые отношения между женщинами и мужчинами...
Работа в Швеции
Работа в Швеции
Компании в Швеции переходят на 6-часовые рабочие дни и добиваются удивительных результатов...


ЛУЧШИЕ РЕЙТИНГИ

Набор массы
Набор массы
Базовые принципы для новичков
Ежедневные 15-минутные прогулки способны кардинально изменить ваше тело
Ежедневные 15-минутные прогулки способны кардинально изменить ваше тело
Всем известно, как положительно влияют на организм...
Правила для наращивания мышечной массы
Правила для наращивания мышечной массы
Зная интенсивность физических упражнений...
Раскачать грудь
Раскачать грудь
Обычно грудные растут хорошо у тех...

АКТУАЛЬНОЕ

Будущее уже с нами Galaxy Fold
CEO продвижение
Отношения с мужчинами
Раздевалка
Лишь плохие начальники ожидают от своих подчиненных постоянной занятости
Как научиться читать быстрее
Выбирай того, кто ежедневно пишет тебе «С добрым утром»
США скрывают правду о пришельцах
Свечение от ракеты SpaceX американцы приняли за НЛО
Путешествие из Австрии в Италию

ЧИТАЙТЕ ТАКЖЕ

18-10-2020 09:35:59 (120052)
Какую одежду носят манхэттенские модницы летом
Возможно эта новость тебе еще неизвестна
18-10-2020 09:35:59 (120050)
Время сгибаемых смартфонов еще не пришло
Эксперт по технологиям издания Mashable Стэн Шредер написал колонку...
18-10-2020 09:35:59 (120049)
Успешные стартапы, которые начинали как сторонние проекты
Apple, Facebook, Google, SpaceX ...
18-10-2020 09:35:59 (120051)
Надо стараться быть с теми, кто к нам хорошо относится
Маленький гимназист очень плохо учился...
18-10-2020 09:35:59 (120044)
Стопроцентная диета для похудения или питание наоборот
Сделай все наоборот....
18-10-2020 09:35:59 (120046)
Невероятная 12-месячная трансформацией тела
Звезда фитнеса из Сиднея Софи Аллен рассказывает о своей трансформации..