Сегодня реальная проблема с личными данными в интернете состоит в том, что условия различных сделок зачастую непрозрачны. Как только вы начинайте искать информацию в интернете, посылаете сообщения или делаете онлайн покупки, ваши данные, привычки и предпочтения тут же попадают в цифровой эфир.
Что с вашей информацией происходит дальше, кто ее просматривает и какие выводы делаются на ее основании — все это известно только корпорациям, находящимся по ту сторону экрана — Google, Amazon, Facebook, рекламодателям, рекламным биржам, информационным компаниям т.д. «Глобальная сеть сегодня — это большой черный ящик», — объясняет Роксана Джимбасу, доцент компьютерных наук Колумбийского университета. «Что нам действительно нужно, так это прозрачность».
Вместе с еще одним коллегой Августином Шантро и командой выпускников университета, возглавляемой Матиасом Лекюйе, они разработали инструмент, который как раз и может помочь решить проблему прозрачности. Называется он «XRay». На этой неделе команда представит свою работу в рамках «Симпозиума Usenix по безопасности» в Сан-Диего (Калифорния, США) и объяснит значение первых полученных результатов. Планируется, что программное обеспечение «XRay» будет выпущено под открытой лицензией, дав возможность программистам использовать и изменять исходный код в некоммерческих целях.
По сути «XRay» — это программа с возможностью обратного проектирования. Она моделирует корреляции (совпадение или сопоставление данных), создаваемые онлайн сервисами. Первые три попытки, предпринятые группой разработчиков были направлены на определение видов рекламы, которая показывается пользователям Gmail на основе вводимого ими текста в электронных письмах; рекомендаций в выборе продуктов, которые выдает Amazon на основе списка предпочтений и другой информации; а также рекомендаций, предложенных YouTube с учетом тех роликов, которые до этого смотрели пользователи.
Исследователи создавали аккаунты и вводили различную информацию, включая электронные письма и поисковые запросы, а также просматривали продукцию на сервисах онлайн покупок. Затем проводился анализ выводимой рекламы или рекомендаций о приобретении того или иного продукта. На основе всей полученной информации специалисты моделировали корреляции между вводимой и выводимой информацией, так чтобы программа XRay могла просмотреть и предсказать результаты контекстуального и поведенческого таргетинга со стороны веб-сервисов.
Анализ XRay оказывается предсказуемым, интересным и в то же время тревожным. Возьмем, к примеру, письма в Gmail и выявленные корреляции. В тех сообщениях, где упоминается беременность, текст «преподнесенных» рекламных сообщений включал, например: «Хотите устроить праздник для будущей мамы?
Скидка 60% на открытки здесь» или «Брендовая одежда. Официальный онлайн магазин». То есть рекламные объявления были очевидны, персонализированы и возможно даже полезны.
В тех сообщениях, где подразумевается выражение состояния депрессии с использованием таких слов, как «депрессия», «подавленный» или «грустный», выводимые затем рекламные объявления были более нестандартными: «Лечение шаманом по телефону» и «Личный тренер онлайн — заполучите девушку, которую хотите и желаете». Хотя и можно было понять, почему появлялись эти объявления, некоторые были не совсем убедительны.
В тех сообщениях, где подразумевалось, что человеку может понадобиться финансовая помощь и упоминались такие слова, как долг, заем и ссуда, происходило почти точное сопоставление данных.
Пример объявлений: «Машина в кредит без залога» или даже «Машина в кредит несмотря на плохую кредитную историю». Кстати последнее было подозрительно. Недавняя статья в американском издании «The New YorkTimes» как раз писала о буме кредитов на машины среди заемщиков с проблемной кредитной историей и о маркетинговой стратегии, которая применялась для привлечения клиентов.
Вопрос состоит не только о том, как и на основе чего компьютер генерирует выводы. Но и то, как их затем используют, и как эта информация распространяется в сети. Джимбасу приводит пример с лечением шаманом по телефону, где рекламное объявление связано с депрессией. Насколько часто происходит подобное сопоставление данных? Например, если вы кликаете на объявление о лечении целителем в каком-либо другом контексте, значит ли это, что вы страдаете от депрессии?
«Сохраняемые в интернете личные данные, особенно важные для рекламного таргетирования, потенциально могут быть использованы в любых целях. Например, с целью дискриминации. И это крайне скрытая форма дискриминации», — объясняет Джимбасу.
Например, именно этот вопрос несколько месяцев назад подняли в США в Белом Доме в отчете по «большим данным» (Big Data Report), в котором власти потребовали ввести лимиты для компаний на использование данных, собранных в сети.
Сбор данных в сети и таргетированная реклама конечно имеет свои преимущества с точки зрения эффективности и персонализации. «Мы лишь хотим сделать саму персонолизацию прозрачной», — заключил Шантро.
По его словам команда Колумбийского университета является частью «расширяющегося сообщества людей, которые прекрасно понимают риски, сопутствующие большим объемам данных, и разрабатывают инструменты для отслеживания потока личных данных, поступающих в сеть».
Например, в Принстонском университете (США) Арвинд Нарайанан — ученый, работающий в области компьютерных наук — возглавляет проект по защите личной информации, цель которого отследить сбор данных, вывод информации и ее распространение в сети. А некоммерческая организация «ID3» в сотрудничестве с Медийной лабораторией Массачусетского технологического института, разрабатывает программное обеспечение с открытым исходным кодом, чтобы пользователи могли лучше контролировать использование своих личных данных.
На данный момент XRay представляет собой прототип. Но эксперты уверены, что уже первые полученные результаты производят впечатление. «То, что это можно делать, уже замечательно», — комментирует Дэн Бонех, программист из Стенфордского университета, который давал оценку разработке XRay.
С последующим развитием продукта команда «XRay» надеется довести разработку до полностью функционального состояния в течение года. Целевая аудитория на локальном рынке в первую очередь включает технических специалистов различных компаний, специализирующихся на защите данных; ведомства прокуратуры, журналистов и Федеральную торговую комиссию. Исследователи, создавшие XRay, также получили грант Брауновского института медиа-инноваций. А также поддержку Школы журналистики при Колумбийском университете и Школы инженерии Стэнфодордского университета в разработке версии технологии для журналистов, позволяющей мониторить данные.
Ли Тьен, главный юрист некоммерческой правозащитной организации «Electronic Frontier Foundation» («Фонд электронных рубежей»), считает, что XRay является многообещающим проектом, который поможет пересмотреть условия сделок в интернете между потребителями и компаниями, занимающимися сбором данных. «Видеть то, что видят они, это первый шаг к установлению баланса», — сказала Тьен.
В своей работе группа специалистов Колумбийского университета также сделала вывод касательно установления баланса: «Наша работа продвигает идею добровольной прозрачности и призывает к ней. В то же время мы хотим предоставить следователям и наблюдателям новый инструмент для усиления бдительности».
Проект XRay был поддержан за счет грантов Агентства передовых оборонных исследовательских проектов, Национального научного фонда, Google и Microsoft.