Это «чудесное» время, когда валяешься в постели с температурой и ломотой во всем теле. Как по по одному-двум симптомам диагностировать грипп? А можно ли предотвратить болезнь? Узнать о ней заранее? Ученые, социологи и медики утверждают – да! И поможет в этом Интернет.
Как грипп поймали в твиттере
Вопрос о выявлении очагов заболевания на ранних стадиях будоражил умы медиков и ученых не одно столетие. Владение информацией о начале эпидемии гриппа и конкретном штамме за 7–10 дней до начала «мероприятия» не только сэкономило бы нервы множеству врачей, но и уберегло бы здоровье сотням людей. В воздухе витали три вопроса:
Как вычислить заболевших и их количество в пределах страны и региона (особенно если они не идут в больницу, а лечатся на дому)? Можно ли удаленно узнать, какой вирус/штамм гриппа подхватил человек и грипп ли это? Как обработать колоссальные объемы информации, составить «карту эпидемии» и своевременно предупредить людей?
До конца 2000-х годов задача считалась неразрешимой, но Big Data распахнули перед медиками и учеными двери в цифровой мир обработки данных. Компании, у которых был доступ к вычислительным способностям Big Data, подошли к гриппу с должным вниманием и запустили несколько отслеживающих программ.
Благодаря анализу поисковых запросов удалось выяснить, что люди с симптомами гриппа часто «гуглят» информацию о болезни и ее возможных осложнениях. Изучив общую картину и объединив жалобы людей, ученые сформировали систему, определяющую штамм гриппа и приблизительное количество заболевших. Она основывалась на «доминирующих» штаммах гриппа в регионе, их симптомах и других важных нюансах. Данные ежеминутно обновлялись, а полученная информация о больных наносилась на «карту зарождения эпидемии».
Причем здесь социальные сети? Сначала системы фильтров настраивались на все упоминания о болезни в Интернете. Оказалось, что люди пишут миллионы комментариев со словами «грипп», «головная боль», «эпидемия», которые сложно обработать. Отчасти из-за многозначности некоторых ключевых запросов, отчасти из-за постов-воспоминаний или публикаций, где тему сравнивали с вирусом (например, «вирус любви»).
И тогда бостонские ученые сузили круг поисков до социальных сетей, а точнее – до Твиттера. Созданная система мониторила все упоминания болезни, а через найденное ключевое слово определяла GPS-координаты на карте, основываясь на геолокации пользователей. Минимальная длина сообщений (в Твиттере тогда был лимит в 120 символов) упрощала работу аналитиков, повышая точность отслеживания.
После этого в базу данных внесли информацию из открытых международных источников о вакцинированных пользователях, штаммах гриппа, распространенных в том или ином регионе, и длительности инкубационного периода болезни. Это позволило создать карту социальных контактов, исключив из нее «безопасных пользователей» и всех находящихся в так называемой «зеленой зоне». Чем больше общих вакцинированных знакомых было в одной группе, тем меньший уровень риска показывала программа.
Изучив Твиттер, ученые переключились на Фэйсбук и Инстаграм. Но Инстаграм оказался «не пригоден» для отслеживания симптомов из-за тысяч хештегов, поставленных просто так или в поддержку заболевших друзей. Также нарушали статистику спортивные болельщики постсоветского пространства, болеющие за любимую команду, и креативные посты, в которых, например, сравнивали любовь с болезнью. Научные работники, изучающие штаммы гриппа, а также студенты медицинских факультетов тоже искажали статистику. Система сбилась. Пришлось вносить коррективы чуть ли не каждый день, исключив научные публикации из списка запросов.
Большим данным большая ошибка
Распиаренные «сверхвозможности» Big Data способствовали запуску проекта Google Flu Trends (GFT). Его основные задачи – фиксировать начало эпидемии гриппа и своевременно предупреждать людей об опасности, создавать так называемую метамодель заболеваний по континентам и странам. Сотрудники, работавшие над проектом Google Flu Trends, уверяли, что их детище выявляет эпидемии быстрее и точнее врачей.
Алгоритм GFT основывался на том, что во время гриппа количество поисковых запросов о лечении, лекарстве, профилактике заболевания значительно возрастает. Анализируя информацию, можно понять, в каком регионе ситуация близка к эпидемии, а где болезнь еще не успела разгуляться. Люди охотно верили информации, ведь культ Big Data стирал все сомнения. Но что-то пошло не так. Спустя пять лет обновлений и доработок программы случился «эпик фэйл»: Google Flu Trends ошиблась с определением пика заболевания на 140 % – в разгар эпидемии 2013 года ресурс показывал зеленый, безопасный уровень. Как выяснилось позже, у GFT не было четкой математической модели, только допущения, прописанные в коде. Пользователи перестали доверять ресурсу, и в 2014 году корпорация Google свернула проект.
Хотя информацию, обработанную Big Data, больше не воспринимают как истинную, ее учитывают многие ведомства: военные, дипломаты, медики. Специалисты мониторят ситуацию не только по стране и за ее пределами, но и внутри рабочих коллективов. Известны случаи отмены мероприятий и дипломатических миссий из-за того, что часть сотрудников попала в зону риска заражения гриппом. По этой же причине могут быть отменены концерты и другие массовые мероприятия, особенно в период зарождения эпидемии.
Действующие «антивирусные программы»
Мировая общественность не планирует доверять свое здоровье случаю, поэтому запускает программы, основанные на сознательности граждан. Одна из них – национальная канадская система эпиднадзора FluWatch, контролирующая распространение гриппа и гриппоподобных заболеваний. В основе онлайн-системы лежит информация, полученная от жителей страны: в сезон гриппа, с октября по май, канадцы еженедельно отправляют волонтерам FluWatch имейлы с ответами на два вопроса: был ли у них кашель и была ли у них высокая температура? Также FluWatch получает данные через систему дозорного эпиднадзора за гриппом (ILI). Лабораторные анализы на грипп и другие респираторные вирусы стекаются в FluWatch со всей страны, а отчеты публикуются каждую пятницу.
Не только канадцы серьезно подходят к вопросу. FluID – глобальная платформа обмена эпидемиологическими данными о гриппе, связывающая региональные эпидемиологические данные в единую глобальную сеть. Она обменивается информацией между существующими базами данных мировых держав, дополняя другой инструмент сбора информации о вирусах по всему миру – FluNet. На платформе размещены количественные и качественные данные, облегчающие мониторинг распространения, интенсивности и воздействия гриппа на организм. Доступ к системе предоставлен лицам, формирующим политику в области здравоохранения.
Быть или не быть
Исследователь социальных сетей Николас Кристакис в 2010 году выступил на площадке TED с докладом о пользе социальных сетей, в том числе для предсказания эпидемии гриппа. Вместе с коллегой Джеймсом Фаулером Кристакис изучал распространение эпидемии на примере социальных контактов. Без малого 10 лет ушло на составление модели возникновения и распространения вирусов с учетом разных связей: родственных, дружеских, сексуальных и т. д. Анализировались публикации пользователей, хештеги и лайки (формирование «активной сети»).
Николас Кристаскис выступает фото: npr.org
Согласно схеме, человек постоянно контактирует минимум с шестью другими «хомо сапиенсами». То есть шесть человек могут передать вирус еще шести, те – еще тридцати шести. Но есть и люди, у которых количество контактов доходит до сотни: работники социальных служб, преподаватели, медики, продавцы и пр. Таких людей помещали в центр модели как социально активных и «потенциально опасных».
Предложенная Кристакисом и Фаулером схема определения вируса показывала, что на краю социальной сети, где контакты минимальны, вероятность заболеть значительно снижалась. Эти данные позволяли не только выявить «активные очаги» возможной инфекции, но и своевременно предупреждать их. Прививки от гриппа, сделанные «внутри активной сети», снижали вероятность распространения вируса до 96 %, позволяя предотвратить разгул болезни.
Каждый график показывает, насколько грипп распространился в сети из 714 человек к определённому дню. Точки это конкретные люди, а соединяющие их линии – цепочки друзей между ними. Красным цветом выделены уже заражённые, жёлтым –их друзья, а размер точки зависит от того, сколько людей заразил человек. Инфографика: semanticscholar.org
Тысячи скептиков по всему миру бросились проверять «теорию Кристакиса и Фаулера». Большинство самостоятельных исследований, в которых участвовали от 100 до 1000 пользователей социальных сетей, подтвердили теорию ученых. Появлялись посты и публикации, где скептики делились своими выводами. Хотя «метамодель» определения гриппа через соцсети поддерживали далеко не все, многие согласились, что нужно разработать четкий алгоритм выявления очагов болезни на основе полученной информации. А значит, соцсети останутся стражами здоровья.
Главная иллюстрация: Studio Thirst/3st.com
Это новость от журнала ММ «Машины и механизмы». Не знаете такого? Приглашаем прямо сейчас познакомиться с этим удивительным журналом.