Big Data: кто владеет информацией, тот владеет миром

Одна из важнейших задач вуза — привлечение талантливых абитуриентов. Учёные Центра когнитивных исследований и нейронаук ТГУ «НейроТомск» разрабатывают новые технологии рекрутинга на основе больших данных. Вместе с Университетским консорциумом исследователей больших данных и компанией «Нейротренд» (Москва) они изучают восприятие абитуриентами бренда Томского государственного университета и анализируют цифровой след будущих студентов во «ВКонтакте». Результаты проекта «Нейроабитуриент» будут полезны для всех вузов, реализующих рекламные решения для привлечения абитуриентов.

Мария Толстова, директор Центра когнитивных исследований и нейронаук «НейроТомск» ТГУ:

«Преимущество нашей методологии в том, что нейрооборудование обладает детализацией данных восприятия вплоть до секунды, а базовая автоматическая обработка результатов уменьшает процент ошибок, связанных с человеческим фактором. Совмещение нейротехнологий и больших данных значительно превосходит традиционные методы анализа эффективности позиционирования вузов. В результате вузы получат реальную картину интересов абитуриентов и методические рекомендации, которые смогут применять в своей стратегической деятельности».

Большие данные, безусловно, открывают большие перспективы для любой организации, компании, большой корпорации и семейного бизнеса. С их помощью можно узнать о своих уж

Мария Толстова.png существующих или потенциальных клиентах ту информацию, которую они бы сами о себе не могли рассказать. Big Data помогает оптимизировать деятельность, повышать эффективность, сокращать расходы, а в случае с вузами — искать самых заинтересованных и талантливых абитуриентов. Однако, как и любые другие технологии, большие данные имеют свои «тёмные стороны». Как всегда, всё зависит от «рук», в которые они попадают. Предлагаем сегодня рассмотреть, какие возможности и риски могут возникнуть на пути человечества в ближайшее время в связи с тотальным сбором данных во всемирной глобальной сети.

Что мы понимаем под Big Data

Термин «большие данные» становится всё более нейтральным и обобщённым, поскольку используется для обозначения и массы «безвредной» информации, собираемой учёными и исследователями в некоммерческих целях, и объёмов личных данных пользователей сети для продажи корпорациям и передачи специальным службам. В первом случае термин имеет нейтральный оттенок, во втором — негативный, поскольку связан с действиями, нарушающими гражданские права. Кроме того, нет и чёткой границы, определяющей, в какой момент объем данных позволяет классифицировать их как «большие».

Однако принято считать, что термин Big Data относится к объёмам данных, которые настолько велики, что их невозможно измерить в гигабайтах и тем более обработать без использования соответствующих инструментов.

Для того, чтобы иметь представления о том, как накапливаются и собираются большие данные, представьте себе следующее: в 2014 году потребовалось всего 10 минут, чтобы собрать тот же объем данных, который люди произвели с момента зарождения человечества до 2002 года. Тогда же эксперты предположили, что далее объём будет удваиваться каждые два года, так как цифровизация и доступность технологий позволяют собирать информацию буквально о каждом действии человека, ставшего пользователем интернета.

В научной литературе принято определять Big Data по трем «V»:

Volume (объем): накапливаемые данные, как мы уже замечали выше, невозможно не только обработать без использования специальных технологий, но и осознать. К 2020 году общий объем информации, созданный в цифровой среде, достиг 44 зеттабайтов. Эксперты Всемирного экономического форума предсказали, что к 2025 году объем ежедневного интернет-трафика данных по всему миру достигнет 463 эксабайтов. Только для записи такого количества информации потребовалось бы более 212 млн DVD-дисков.

Velocity (скорость): большие данные поступают в обработку в режиме реального времени, то есть, они накапливаются моментально. При этом продолжительность потока самих данных значения не имеет.

Variety (разнообразие): Big Data представляет собой совокупность различных источников данных и множества разных форматов (видеоданные, фотографии, звуковые записи, текстовые сообщения, файлы транзакций, комментарии, использование ссылок и фиксация просмотров страниц и так далее). Самый «благодатный» ресурс генерации больших данных — социальные сети и социальные медиа-сервисы. Они представляют как структурированную информацию (которая сама по себе является коммерческим продуктом платформ), так и неструктурированную.

1 (1).png

Основными инструментами сбора больших данных стали:

мобильный интернет: подключённый к сети телефон постоянно передаёт информацию о владельце с помощью многочисленных приложений и геолокации);

социальные медиа: кроме добровольно и открыто представленной личной информации в профиле пользователь оставляет след своими комментариями, «лайками», организацией социальных связей и так далее. Вы уже прошли тест «Каким бы вы были римским императором?» Поздравляем: вы добровольно отправили информацию о себе очередному «интересанту»;

геотаргетинг: половина ваших приложений (если уже не все) требуют подключения геолокации именно для того, чтобы передавать данные о вашем местонахождении компаниям для настройки таргетированной рекламы (поиска покупателей в конкретной локации);

облачные вычисления: первое правило пользования облачными сервисами — «Помни! ВСЁ, что попадает в облако, НЕ остаётся в облаке»;

измерение жизненно важных данных: вы пользуетесь шагомером? У вас установлены приложения, в которые вы загружали параметры тела и информацию о здоровье? «Большой брат» знает, в какой физической форме вы находитесь;

потоковая передача мультимедиа: примером потоковой передачи и обработки данных является сервис YouTube. Он анализирует данные пользователей, опираясь как на просмотренные полностью видеозаписи и трансляции, так и на пропущенные. Для авторов каналов YouTube дополнительно предлагает услуги по сбору данных об интересах зрителей, их геолокации, контентных предпочтениях, политических взглядах и так далее.

Особая тема в контексте дискуссии о Big Data — обеспечение конфиденциальности персональных данных. Несмотря на существующий в России закон и необходимость подписывать кипу документов, например, при каждом посещении врача в районной поликлинике, мы ежедневно добровольно делимся информацией о себе, не фокусируя на этом внимания. В России сбором больших данных в «производственных масштабах» занимаются «Сбер», Mail.ru Group, «Яндекс». Глобальными «всадниками цифрового апокалипсиса», собирающими самые большие объемы данных, принято считать Google, Apple, Facebook (запрещённая в РФ соцсеть), Amazon и Microsoft. Кстати, представителям научного сообщества будет интересно узнать, что за спинами этих IT-гигантов скромно прячутся компании RELX (Reed Elsevier LexisNexis) и Thomson Reuters, объединяющие сотни более мелких издателей и служб данных. Вместе они накопили тысячи академических публикаций и бизнес-профилей, миллионы досье на своих подписчиков, содержащих их личную информацию, и без стеснения продают всё это заинтересованным корпорациям. Например, Elsevier компании RELX продает метрики, которые помогают предсказывать, какие исследователи и какие научные проекты будут иметь наибольшее влияние в будущем, что, в свою очередь, позволяет спонсорам грантов распределять деньги.

Каковы преимущества больших данных?

Почему же большие данные настолько востребованы корпорациями и каким образом они их используют? Конечно, приведённые выше примеры, скорее, настораживают, чем настраивают на готовность делиться информацией о себе. Однако не будем забывать, что Big Data произвели революцию во многих аспектах нашей жизни.

Большие данные преобразовали процесс аналитики: при грамотном и этичном использовании Big Data позволяют с поразительной точностью сегментировать аудиторию, выявлять их предпочтения и на основании этого создавать новые продукты.

Большие данные обеспечивают уникальное конкурентное преимущество: используя поток информации в режиме реального времени, компании могут адаптироваться к изменениям на рынке «в моменте», а значит, опережать конкурентов и добиваться большей эффективности.

Большие данные повышают производительность: аналитики больших данных с помощью соответствующих инструментов могут помогать настраивать бизнес-процессы, в частности, повышая производительность труда сотрудников.

Большие данные и Интернет вещей: взаимодействие устройств, подключённых к интернету, способно невероятно позитивно влиять на качество жизни человека. Например, холодильник может сам отслеживать набор продуктов, создавать списки покупок и напоминать о необходимости пополнить запасы; интеллектуальные системы автомобиля могут составлять рекомендации водителю о более безопасном стиле вождения и передавать информацию производителю для дальнейшего совершенствования своего продукта.

Каковы риски больших данных?

При неправильном сборе, хранении или использовании информации Big Data потенциально представляют серьезную опасность. Все риски, связанные с большими данными, можно условно разделить на четыре основные категории:

Безопасность больших данных

Чем больше данных собирает организация, тем дороже и сложнее их безопасно хранить. Вопрос конфиденциальности связан не только с тем, что распространение личной информации может принести нам моральный вред. Все наши финансовые операции давно и незаметно перешли в цифровую среду: в электронной базе данных хранятся наши банковские реквизиты и информация обо всех транзакциях. Учитывая количество и качество кибер-атак, возникает вопрос: если компании могут хранить огромные объемы данных, значит ли это, что они обязательно должны это делать? Что подводит нас к следующему пункту…

Этические проблемы Big Data

Даже если корпорациям удаётся защищать наши данные от хакеров и кибератак, это не исключает использования информации не по назначению самими корпорациями. Повторим, законы о защите персональных данных в России действуют, однако все еще существует некоторая неопределенность в отношении того, что должно считаться персональными данными. Например, банки устанавливают лимит на овердрафт или создают предложения по кредитам на основании данных о наших зарплатах и потребительских привычках. Клиент банка получает огромное количество спама без согласия на то, чтобы быть мишенью для прицельной «бомбардировки» банковским продуктом. Ещё один этический аспект, связанный с использование Big Data — слежение за гражданами со стороны спецслужб.

4 (1).png

Использование больших данных злоумышленниками

Конфиденциальная информация может попасть в руки третьих лиц, которые далее будут продавать их в даркнете лицам четвертым, пятым и так далее. В результате появляются новые схемы мошенничества: миллионы людей получают звонки «из МВД» и «представителей банков», или просто уведомления о продаже имущества без ведома владельца. Фишинг, банковское мошенничество и мошенничество со страховкой — всё это распространенные примеры того, как организованные преступные группировки могут умышленно использовать большие данные не по назначению.

В условиях острого информационного противостояния большие данные помогают организовывать кампании по дезинформации и распространению фейков. Цель этой деятельности — формирование общественного мнения в пользу идей и политиков, выгодных стороне противника; организация государственных протестов и переворотов; формирование негативной информационной повестки и тому подобное.

Непреднамеренное некорректное использование больших данных

На основании Big Data происходит машинное обучение: нейросети не генерируют знания сами, а развиваются, используя уже имеющиеся данные. Иными словами, для того, чтобы алгоритмы обучались и совершенствовались, нужно их сначала запрограммировать. Это значит, что в их развитие вмешивается человек и его предвзятость может повлиять на выбор данных для анализа. Таким образом, на принятие важных финансовых решений или решений в сфере информационной безопасности влияет человеческих фактор, который, предположительно, должен быть исключён для формирования некой объективной картины.

С другой стороны, искусственному интеллекту не хватает человеческой интуиции, эмпатии для того, чтобы принимать подходящие конкретной ситуации решения. Это тоже может приводить к фатальным ошибкам. Например, совсем недавно произошёл инцидент, связанный с испытаниями военного дрона, уничтожившего своего воображаемого оператора-человека.

К каким выводам можно прийти после всего вышесказанного? Big Data могут быть очень полезными для человека. Как бы то ни было, это — наше будущее, которое будет всё более фантастичным по мере развития технологий и возможного достижения сингулярности. Будут развиваться и новые сферы профессиональной и исследовательской деятельности, например, этика больших данных. Продолжится и противостояние между потенциалом больших данных и опасностями, связанными с их использованием.

7 (1).png