Можно ли предсказать будущее? Можно ли управлять им?

(О некоторых перспективах использования больших массивов данных)

Мирон Я. Амусья

Прошлое не повторяется, но оно рифмуется с настоящим.
(The past does not repeat itself, but it rhymes)
Марк Твен

Моя истинная страсть состоит в том, чтобы вооружить человечество научными методами, позволяющими автоматически прогнозировать и, в конечном итоге, влиять на будущие результаты, основываясь на уроках прошлого.
К. Радинская, Директор Науки данных (Data Science) и Главный учёный e-Bay, профессор Техниона, 32 года

1. Введение

Настояшая заметка представляет собой упрощённое изложение доклада, с которым автор выступал на нескольких научных конференциях в прошлом году. Я не являюсь специалистом в обсуждаемой области науки. Однако просто потрясён достигнутыми в ней результатами и открывающимися возможностями. Первоначальным толчком, привлёкшим моё внимание к проблеме, стал доклад проф. К. Радинской 28.11.16 на коллоквиуме в Институте физики им. Дж. Рака Еврейского университета в Иерусалиме. Именно там я впервые услышал термин Big data sets (Большие массивы данных), или, короче, Big Data (Большие данные).

Признаюсь, мой интерес не находил подобного же отклика у окружающих. Компьютеры и их производные приносят много нового в нашу жизнь. Казалось, «Большие данные» — это нечто обычное в этой цепи. Но совсем недавно проблема эта стала центром большого общественного внимания. Так, выяснилось, что компания «Кэмбридж аналитика», о которой пойдёт, среди прочего, разговор в данной заметке, сумела дать важнейшие для выборов в США в 2016 данные, характеризующие почти сто миллионов избирателей США. Она настолько существенно опиралась на данные, полученные с помощью Фейсбука, что его основателю и руководителю М. Цукербергу пришлось извиниться перед своими подписчиками, число которых воистину огромно. В результате, «Большие данные» оказались заслуженно в центре общественного внимания.

Оказалось, что использование больших наборов данных позволяет, после определённой их обработки, описать многие природные и социальные явления, предсказать поведение больших групп людей, т. е. предсказать нечто в будущем, и даже оказывать на это поведение существенное воздействие, т. е. влиять на будущее. Всё это меня глубоко впечатлило, и заставило как искать материал по проблеме, так и самому в меру умственных возможностей обдумывать её.

2. Сбор и использование Больших массивов данных

Источником больших массивов данных являются издавна ведущиеся книги записей, собрание историй болезней, всевозможные архивы, газеты, результаты переписей, опросные листы, данные всевозможных испытаний и анализов и т. п. Новыми, всё более важными источниками массивов данных становится интернет, социальные сети, а также некоторые, кажущиеся побочными, источники, что включает анализ данных, поступающих от персональных компьютеров и мобильных телефонов. Всё большую роль приобретает анализ письменных комментариев пользователей, что требует разработки специальных математических программ.

Однако даже простой счёт таких реакций читателя статей или комментариев к ним, как «Like», «Repost», или «Dislike» становится важнейшим информатором того, что представляет из себя этот читатель как личность, каковы взгляды и интересы человека, нажимающего соответствующие кнопки. Задача — накопить для данного индивида достаточно большой массив ответов.

Интересно, что анализ газетной информации за множество лет может привести к важным заключениям, прямого отношения к описываемым в газетах событиям не имеющим. Так, оказалось, что газета Нью Йорк Таймс может быть содержательна не только как источник антиизраильских измышлений. Так, сообщения в этой газете за период 1851-2010 гг позволяют, как впервые показала К. Радинская, проанализировать некоторые природные явления, прямо не связанные с человеческой деятельностью.

Так, например, была проанализирована массовая гибель птиц. Под «массовой гибелью» понимается такое происшествие, которое заслуживает внимание публики, что отражается фактом публикации в газете. Конечно, такой выбор содержит элемент произвола, но длительность выборки придаёт собираемым данным надёжность. Оказалось, что график зависимости гибели птиц от года наблюдения имеет, наряду с подобными шуму малыми осцилляциями, ещё и большие максимумы. Аналогичные кривые были получены и для описания массовой гибели рыб. Результаты оказались схожими, притом положения больших максимумов для рыб и птиц совпадали. Анализ газетных сообщений позволили найти корреляцию между этими событиями и большими разливами нефти. Анализируя временной масштаб повторения событий в прошлом, оказалось возможным предсказать повторение подобных событий и в будущем.

Замечу, что всё это удалось сделать без привлечения каких-либо знаний в облостях орнитологии или ихтиологии: требовались лишь большие наборы данных, и компьютерные программы для их обработки и анализа. Подобный подход открывает принципиальную возможность находить ранее неизвестные связи и корреляции. Тем самым буквально открывается окно в многомерный виртуальный мир, наглядно иллюстрируя переход больших количеств (объёмов данных) в новые качества — открываемые закономерности.

3. Проекты Больших массивов данных

Очевидна аллюзия с оруэлловским «Большим братом». Вспоминается знаменитое выражение «Большой брат следит за тобой!». Первый шаг в том анализе, о котором собираюсь говорить — это сбор различных больших баз данных. Их источники могут быть как старомодные газеты, так и персональные компьютеры (ПК), равно как и мобильные телефоны — постоянные спутники, верные друзья и важнейшие соучастники нашей сегодняшней жизни, делающие её кардинально отличной от ещё сидящей в памяти жизни вчерашней.

Почти всё, происходящее с нами сегодня, отражается в ПК и на смартфоне, вне зависимости от того, что делаем — пишем ли мы научную статью или воспоминания, поздравляем друзей и родных с праздниками, оплачиваем банковские счета, покупаем всевозможные билеты, заказываем номера в гостинице, и непрерывно что-то спрашиваем, спрашиваем, спрашиваем без конца. День не провести без использования Гугла, Википедии, или Мувита. В прошлое уходят библиотеки — я с собой таскаю триста книг, и читаю практически всё, что хочу на пятидюймовом экране чуда весом чуть более 100 г. Никогда в прошлом столько не читал, никогда с такой пользой не проводил время — даже в автомобильных пробках.

Приведу пример использования больших массивов данных в медицине. Система IBM Watson for medicine имеет в Гугле больше миллиона ссылок. Нижеследующие конкретные цифры приведены по данным состоявшегося в 2016 в Сан-Антонио (США) симпозиума по раку груди. Выяснилось, что 12 вопросов к пациентке, вместе со всеми доступными личными медицинскими данными позволяют диагностической программе успешно соревноваться с консилиумом первоклассных специалистов. Совпадение констатировано сходу в 83% случаев. Оставшиеся 17% были пересмотрены, и половина из них, т. е. 8.5% от полного числа, сменилась в пользу мнения компьютера, доведя согласие в дуэте «компьютер — консилиум» до 91.5%!

Использование больших массивов данных позволяет одновременно испытывать десятки образцов нескольких отличающихся версий одного и того же препарата, что позволяет резко сократить продолжительность перехода лекарства от производителя к пациенту. В то же время, наличие возможно более подробного «досье» физиологических и психологических данных о пациенте позволит перейти к весьма важному методу лечения, которое будет использовать индивидуально подобранные для данного пациента лекарства. Это подобно тому, как если бы производители одежды без существенного удорожания смогли бы вернуться назад, от массового, но к быстрому индивидуальному пошиву.

Уже сейчас, принимая по утрам целый ряд таблеток, и изучая из любопытства с помощью Гугла длинный список противопоказаний каждой из них, я вижу проблему. Она состоит в том, что обычному врачу просто невозможно удержать в голове все эти результаты работы огромного числа фармакологов, и не сопоставить их с моими конкретными, уже существующими заболеваниями. А ведь хорошо бы ещё попытаться учесть те заболевания, которых у меня нет, но к которым я явно предрасположен. Здесь помочь может только сопоставление Больших данных по медицинским препаратам с моими данными, собранными за годы наблюдения.

Упомяну, что индивидуально подогнанные препараты уже сейчас применяются в лечении определённого, самого опасного вида меланомы (рака кожи), который составляет примерно 30% от общего числа меланом. Цель этих противораковых препаратов — устранить защиту раковой клетки, предохраняющей её от воздействия иммунной системы поражённого раком организма. Остальное сделает сама эта иммунная система. Вред, причиняемый такой терапией определённо ниже, чем от традиционной химиотерапии, где введённое лекарство убивает раковую клетку. На сегодняшний день приготовление такого индивидуального лекарства занимает примерно три часа, но обходится весьма дорого.

Особенность подобных подходов состоит в том, что конкретные данные о здоровье отдельного человека становятся известны в принципе кому угодно. Таким образом, возникает возможность не только лечить отдельного человека, но и управлять им.

Большие наборы данных широко используются в так называемом направленном или прицельном рекламировании (Targeted advertisement). Каждый сталкивается с этим регулярно. Стоит вам поинтересоваться гостиницей в каком-то городе, или авиабилетами по тому или иному маршруту, как на экране вашего ПК, планшета или смартфона появляются многочисленные предложения, информирующие о гостиницам в упомянутом городе или о соответствующих авиабилетах. Впервые я столкнулся с этим пару лет назад, подбирая для себя гостиницу в Эйлате. Был поражён потоком рекламы гостиниц именно в Эйлате, что поначалу отнёс к случайным совпадениям. Потом понял — реклама учитывает мой проявленный интерес, она направлена в ответ на мой запрос, а ПК, просто как Большой брат, следит за мной.

Эффективность прицельного рекламирования гораздо выше, чем обычного. Целевое размещение рекламы в Фейсбуке увеличивает число ознакомлений с рекламой на 60%, а вероятность действия — покупки, после ознакомления с персонализированной рекламой возрастает почти в 15 раз.

Большие массивы данных важны в целом ряде областей. К примеру, с их помощью можно составить коллективный портрет биржевого торговца — брокера. Большинство современных математических моделей биржи пренебрегают индивидуальностью, личностными чертами брокера. Последний трактуется как некая воистину «элементарная частица», лишённая внутренних степеней свободы, прямо не взаимодействующая с другими «частицами». На все независимые «частицы» — брокеров, действует общее, одинаковое для всех «частиц», поле. Подобный подход несколько раз представлялся на коллоквиумах Института физики им. Дж. Рака.

Подобный подход всегда вызывал у меня удивление и несогласие. Действительно, даже наблюдая со стороны, с галереи для публики или на экране ТВ то, что происходит в зале биржи, можно в поведении брокеров заметить проявления сильных корреляционных, коллективных эффектов. Они отражаются и в синхронных взмахах рук, и в прыжках, и в том, как и когда брокеры спешат известить о чём-то своих клиентов. Очевидно, что брокеры имеют индивидуальные степени свободы, и их поведение во многом определяется индивидуальными привычками, своего рода модой, поведением коллег. Создание баз Больших данных по брокерам помогло бы им успешнее организоваться или самоорганизоваться, а также способствовало бы развитию теории биржи.

Подходы, основанные на больших массивах данных сулят многое и в науке. Я имею в виду проведение, например, глобальных экспериментов в физике, что позволит определять, опираясь на данные из разных лабораторий и от разных групп не только традиционную одномерную зависимость y=f(x), но и более сложные зависимости y=f(x, z), y=f(x, z, t) и т. д. Обработка больших массивов разнородных на первый взгляд данных может вскрыть наличие неизвестных ранее удалённых корреляций. Создание Больших массивов данных важно и с точки зрения установления связи между разными, подчас не знающими друг о друге, исследователями. Это позволяет устанавливать связи между разными подобластями и даже областями исследований. Так, например, изучая кривую, которая описывает форму песчаного берега океана (например, обратная волна), можно получить её аналитическое выражение, а затем найти и уравнение, подчас в совершенно другой области науки, решением которого является рассматриваемая кривая.

4. Большие массивы данных и политические выборы

Уже сейчас создание больших массивов данных позволяет получать важные социологические результаты. Несколько лет назад Михаль Косинский (Michal Kosinski, The Psychometrics Centre, Cambridge University) создал для Фейсбука приложение. МояЛичность (MyPersonality). Приложение позволяло собирать данные для описания персонального профиля пользователя. Были получены миллионы (!) ответов. В основе лежала попытка охарактеризовать индивидуальность, используя пять «измерений»: открытость, цельность личности, стремление к взаимодействию с другими личностями, доброжелательность (дружелюбие и готовность к сотрудничеству), и невротизм (насколько легко вывести индивида из себя).

Достаточно с помощью программы Косинского проанализировать 68 “лайков” на Фейсбуке, чтобы установить с 95% вероятностью расу испытуемого, с 88% вероятностью его (гомо) сексуальность, его приверженность, например, если изучается американец, демократической или республиканской партии. Оказывается, что нажатия на “Like” подобно отпечаткам пальцев, а всё исследование выглядит как анализ ДНК в криминалистике.

Вскоре у приложения МояЛичность появилась возможность изучить человека лучше, чем его коллеги после анализа 10 “лайков”, после 70 — лучше, чем его (её) друг, после 150 — лучше, чем родители! Замечу, что соответствующие Большие массивы данным позволяют также находить группы людей с требуемыми чертами.

Особо богатую информацию о человеке предоставляет его смартфон. Он оказался огромной психологической анкетой, которую мы осознанно или неосознанно заполняем. К осознанно вносимым данным относятся лайки и другие комментарии, заказы билетов, розыск адресов и маршрутов движения, равно как и многие другие сознательно сообщаемые данные. К неосознанно сообщаемым данным относится фиксация месторасположения, интонации голоса и манера говорить, в том числе — жестикуляция при разговоре. Повторюсь, смартфон хотя и маленький, но вполне справляется с ролью Большого брата, который следит за своим, выходит, квази-хозяином.

Сравнительно недавно в Лондоне была создана организация, получившая название «Стратегические лаборатории связи» — SCL (Strategic Communications Laboratories). Организация говорит о себе как о «глобальном агентстве по управлению выборами, которое умело применяет моделирование поведения избирателей и занимается микро-таргетингом для политических кампаний». Эта организация либо прямо использует программы и результаты Косинского, либо переоткрыла независимо его подход.

Особое внимание последнее время приобрела дочерняя компания SCL — Аналитика Кембриджа (Cambridge Analytica — CA). Эта компания была использована с явным успехом, Т. Крузом при подготовке к праймериз в Республиканской партии в 2015-16 гг. Весьма успешно выступила CA, когда она была нанята Найджелом Фаранжем (Nigel Farage), лидером Партии независимости Соединённого королевства, одним из самых энергичных и влиятельных сторонников выхода Великобритании из Евросоюза (Brexit 2016). Возможно, в связи с успехом Brexit’а, и знакомством с СА Д. Трамп как-то сказал «Скоро они назовут меня м-р. Brexit»! Во всяком случае, в августе 2016 появились сообщения, будто СА работает на Д. Трампа.

Судить о достижениях компании СА можно на основании того, что сказано её директором А. Никсом (Alexander Nix, CEO). Он утверждал, что участие СА в выборах в США играло важную роль в победе Д. Трампа на выборах в 2016. Отмечу, что Главный стратег Белого дома, С. Беннон (S. Bannon), был вице-президентом СА.

СА утверждала, что собрала довольно подробные данные о всех 220 миллионах избирателей США. Особо аккуратно были будто бы проанализированы данные по 17 штатам. Избиратели были подразделены на 32 психо-типа, а каждый психо-тип — на множество малых групп — конкретных мишеней агитации. Согласно сообщениям А. Никса, с помощью приложения CA волонтеры того или иного кандидата могли получить, при желании, данные о жителях каждого дома.

Знание объекта агитации позволяет тщательно продуманно и целенаправленно рассылать агитационный материал, с учётом понимания того, что можно ждать от буквально каждого избирателя, и какой элемент из почти безбрежного моря избирательных материалов подействует на данного индивида наиболее эффективно.

Как известно, избирательная кампания Д. Трампа была гораздо дешевле, чем кампания Клинтон. Однако расходы команды Трампа на направленную агитацию через Интернет составили $60 миллионов, тогда как Клинтон -только $3 миллиона. Если это правда, налицо важнейшее доказательство роли достижения технологического преимущества и в такой области, как выборы.

А. Никсу принадлежит примечательное высказывание:

«Мои дети будут не в состоянии объяснить, что означает единый рекламный плакат для всех».

СА приобретала все доступные личные данные из новых и старых источников, включая данные IQ испытаний, которые придавали дополнительный вес «лайкам» каждого изучаемого избирателя. Судя по недавно (в марте 2018) всплывшим фактам — приобретала «доступные» данные также и незаконным путём, без согласия тех, чьи данные собирались. А таких она взяла в Фейсбуке на более чем 50 млн. человек.

В передаче данных не последнюю роль сыграл психолог из Кембриджского университета А. Коган, который через созданное им приложение «This is your digital life» на платформе Фейсбука, составлял психологический портрет пользователя, и передавал эти данные третьим лицам, включая СА.

М. Цукербергу пришлось извиниться за недосмотр, разорвать связи с СА и Коганом, А. Никс подал в отставку, а СА объявила банкротство. Однако сомневаюсь, что данное направление деятельности ушло в небытие — слишком впечатляющие возможности оно открывает. Да и сам Никс не остался без работы, став тут же одним из директоров сравнительно новой компании Emerdata, чья деятельность, скорее всего, будет подобна деятельности СА.

5. Использование, злоупотребление и манипулирование

Фейсбук, да и другие социальные сети, стали сильнейшим оружием в рекламировании и относительно дешёвыми превосходными советниками при проведении выборов, описании и классификации потребителей и распространении новостей — истинных и ложных. Фейсбук осознаётся важным выборным инструментом многими. Так, партия «Альтернатива для Германии», внезапно на выборах в Бундестаг в 2017 неожиданно для очень многих ставшая третьей по величине, имеет в Фейсбуке больше подписчиков, чем обе ведущие партии, вместе взятые.

Особо внимания заслуживает сеть ВКонтакте, которая имеет сейчас 460 млн. подписчиков, и доступна на более, чем 90 языках. Сеть особо популярна среди русскоязычной публики, что позволяет ей играть очень важную роль в резко усиливавшемся, начиная с февраля — марта 2014, противостоянии РФ и Западных стран. С уходом П. Дурова с поста генерального директора компании и его отъезда из РФ резко усилилось влияние властей РФ на пропагандистские кампании, идущие с использованием сети ВКонтакте.

Социальные сети могут быть использованы для усиления или использования как про— так и антиправительственных намерений. На основе Больших массивов данных можно находить и революционно настроенных, и склонных к сотрудничеству с властями людей. Программа, подобная той, что называется МояЛичность, может способствовать пробуждению таких негативных черт в человеке, которые ему самому не известны. Это открывает возможность обнаружения скрытых преступников, тех, которые совершают не «мысленное преступление» (по Оруэллу), но готовы по складу личности совершить преступление в обычном смысле этого слова, проигрывая его пока ещё только в мыслях.

Недавно я просмотрел ролик «Умное Оружие». Там демонстрируется возможность маленьких, меньше, чем в пол-ладони, беспилотников, которые оснащены электроникой, подобной современному мобильному телефону. Он управляется не посторонним человеком-оператором, а внутренним электронным пилотом, который направляет свой аппарат либо по заданному портрету, либо на основе набора характеристик цели. В голову сразу приходит мысль о том, что аппарат может распознавать также и потенциального преступника, и карать его на основе намерений, предваряя совершение реального преступления. Это сразу ставит ряд сложнейших юридических и этических вопросов.

Описанное выше может использоваться не только в интересах добра, но и во имя зла, манипулируя общественным мнением и влияя на него. А такое есть бесценная опора для диктаторов, помогая им обрести международную поддержку, вводя в сеть и тиражируя ложную информацию через своих иностранных агентов или действующих на заграницу «фабрик троллей». Заметим, что один агент способен создавать десятки и сотни подложных счетов. Думаю, что генерировать подобны счета и даже создавать ложную информацию на заданную тему может даже автомат.

Намеренная фальсификация включает, но не ограничена организованным распространением обмана, намеренным, персонально ориентированным умалчиванием нежелательной правды, распространением ненависти, страха и ужаса, а также слухов. Примеров можно привести здесь множество, но я ограничусь лишь напоминанием о Берлинской «Бедной Лизе», девочке, якобы изнасилованной мусульманином, в действительности, преспокойно забавлявшейся со своим другом. А на улицы в это время, на основе преднамеренной дезинформации, вышли толпы русскоговорящих, требующих «отмщенья».

Замечу, что слухи обладают поразительной скоростью распространения и устойчивостью к опровержениям и просто к соображениям здравого смысла. Когда-то, в десятом классе, я обнаружил это, рассказывая кому-то из своих приятелей о впечатляющем, но довольно неправдоподобном, выдуманном мною происшествии. Через 3-4 дня этот слух, в трёхмиллионном Ленинграде, возвращался ко мне с добавлением ещё более «душещипательных» деталей. Убедить в том, что этот слух придумал я, было невозможно. На вопрос, «Кто тебе это сказал?», неизменно следовал ответ «Все об этом знают!».

***

Материалом для этого доклада стала не только лекция К. Радинской. Многое я взял из статьи, опубликованной в журнале Das Magazin N°48 — 3. Dezember 2016 (Cм. также The Insider). Почти всё, связанное с медициной в этой заметке, я узнал от проф. О Глуза (Дюссельдорф, ФРГ), которому чрезвычайно признателен. Поскольку я переизлагал услышанное от него, возможные ошибки беру на себя. Пользовался и значительным количеством других источников. Тема меня исключительно увлекла. Я увидел в ней очередной пример мощи науки. Наука и научные работники несут ответственность за информирование, равно как и дезинформирование общества.

5 комментариев для “Мирон Амусья: Можно ли предсказать будущее? Можно ли управлять им?”

Бершадский Владимир:

06.09.2019 в 20:20

Если вы хотите предсказать будущее, изучайте историю

Ответить
Хаим Брейтерман:

07.05.2018 в 21:27

Итак, можно ли предсказать будущее человечества, хотя бы лет на 100-200?

Ответить
Михаил:

07.05.2018 в 17:53

Дорогой Мирон! Меня очень заинтересовала Ваша статья о роли БигДата (БД) в управлении самыми разными процессами. В частости, сможет ли БД преодолеть когда-нибудь такой большой недостаток системы всеобщего и равного голосования на выборах, как победа популистов. Например, определив насколько та или иная группа избирателей готова на выборах учтывать интересы безопасности и экономики гос-ва, БД автоматически предоставит преимщество тем, кто озабочен этим в серьез? Нечто вроде «интеллектуального» что ли избирательного ценза. Разумеется нужен будет строгий общественный контроль, и все же…?

Ответить
1. Aleks B.:
  
  08.05.2018 в 06:52
  
  «ОПщественный контроль…» , не дай нам Все-ний такого будущего.
  И вообще, предСКАЗАНИЯ, как и ПОСЛЕсказания — грех один.
  
  Ответить
Хаим Брейтерман:

07.05.2018 в 07:57

Как и все Ваши публикации, читаю с большим интересом. Спасибо, уважаемый Мирон!

Ответить

Апрель 2024
Пн	Вт	Ср	Чт	Пт	Сб	Вс
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

Можно ли предсказать будущее? Можно ли управлять им?

(О некоторых перспективах использования больших массивов данных)

Мирон Я. Амусья

5 комментариев для “Мирон Амусья: Можно ли предсказать будущее? Можно ли управлять им?”

Добавить комментарий Отменить ответ