Проблемы оценки одномерного распределения

К третьему типу относятся проблемы оценки одномерного распределения. Недавно я слушал лекцию[281] Питера Скомороха из компании LinkedIn[282]. Он показал распределение вероятности названия должности сотрудника, занимающегося разработкой программного обеспечения, в зависимости от числа месяцев, прошедших после его выпуска из университета. Согласно данным, распределения «Sr Software engineer» и «senior software engineer» (старший инженер-разработчик программного обеспечения) почти идентичны, что можно было ожидать, учитывая их синонимичность. Аналогичная картина и с распределениями «CTO» и «Chief Technology Officer». Это интересный способ определения синонимов и исключения повторов, вместо того чтобы поддерживать длинный основной список акронимов и аббревиатур. Это возможно только благодаря объему данных: при нем распределение, которое делают авторы, — надежное и предположительно близкое к истинному лежащему в основе распределению населения.



Источник: Питер Скоморох. Воспроизводится с разрешения

Проблемы многофакторности

Четвертый тип проблем — проблемы многофакторности, или корреляционные, при которых мы стремимся оценить взаимоотношения между переменными. Это может быть оценка взаимоотношений y = f(x) или, возможно, оценка совместной плотности распределения многих переменных. Это можно использовать для разрешения лексической многозначности (например, когда в документе встречается слово pike, обозначает ли оно «щуку» или «пику») или для составления «справочника» взаимосвязанных характеристик или концепций для конкретной лексической единицы (например, с понятием «компания» связаны такие понятия, как «генеральный директор», «главный офис», «ИНН» и так далее).

В данном случае нас интересуют корреляции между словами или фразами. Проблема в том, что документы в сети отличаются высокой размерностью, и, принимаясь за решение подобных проблем, мы попадаем под действие «проклятия размерности»[283], когда данные становятся очень рассеянными.

Таким образом, один из эффектов более крупной выборки заключается в повышении плотности данных в статистическом пространстве. Опять-таки, в случае с более крупными выборками есть возможность более точно оценить показатели, такие как показатели положения (среднее значение, медиана и другие показатели центра распределения). Кроме того, можно более точно оценить совместные плотности распределения (PDFs). Следующая диаграмма рассеяния представляет собой простой пример, составленный на основе этого кода:


par(mfrow=c(1,2))

plot(mvrnorm(100, mu = c(0, 0),

Sigma = matrix(c(1, 9, 9, 1), 2)), xlab="X",ylab="Y",

ylim=c(-4,4))

title("n = 100")

plot(mvrnorm(10000, mu = c(0, 0),

Sigma = matrix(c(1, 9, 9, 1), 2)), xlab="X",ylab="Y",

ylim=c(-4,4))

title("n = 10000")




Слева использовалась маленькая выборка. Диаграмму легко интерпретировать как линейную. Справа, где размер выборки был больше, более очевидно настоящее двумерное нормальное распределение. Конечно, это банальный пример. Суть в том, что для более высоких размерностей требуется значительно более серьезный размер выборки, чтобы также оценить совместные плотности распределения.

Конечно, это весьма поверхностный ответ на вопрос, почему больше данных лучше. Предпочтительно использовать качественные данные. Однако во многих компаниях, таких как Google, Twitter, LinkedIn и Facebook, где контент создается пользователями, нередко тексты, созданные в свободной форме, касаются самых разных областей (поэтому глубокая очистка данных и использование онтологий просто нерациональны), в итоге мы видим, что «информационный шум» компенсируется очень большим объемом данных. В итоге все выравнивается, и в случае проблем «ближайшего соседа» решение всегда будет лучше.

Приложение В. Заявление о видении

* * *

Это приложение может стать стартовой точкой для формирования заявления о видении — мотивирующего описания того, чего компания стремится достичь в среднесрочной и долгосрочной перспективах, чтобы стать более ориентированной на данные. Суть в том, чтобы выделить цель компании, объединить всех участвующих лиц и стимулировать обсуждение того, как добиться целей компании. Каждая компания индивидуальна, скорректируйте этот документ так, чтобы он отражал видение вашей компании.


В процветающей компании с управлением на основе данных [название компании] присутствует следующее.


Сильное руководство на основе данных

• Руководители активно продвигают данные как стратегический актив, который должен максимально использоваться для оказания влияния на все уровни деятельности компании.

• Руководители понимают потребности бизнеса и поддерживают его развитие. Руководители поддерживают специалистов аналитического подразделения: обеспечивают им четкий карьерный путь, стимулируют работать максимально эффективно и получать удовольствие от работы.

• Менеджеры опираются на аналитические выводы для принятия информированных решений. В целом в компании использование данных и аналитики глубоко укоренилось в наших рабочих процессах и процессе принятия решений.


Открытая культура, построенная на доверии

• Существует централизованный набор связанных источников данных без барьеров.

• У бизнес-подразделений сформирована концепция владения знаниями, сотрудники активно управляют качеством данных из своих источников.

• Обеспечен широкий доступ к данным.

а) У каждого сотрудника, которому требуется доступ к данным для выполнения своих функциональных обязанностей, есть этот доступ.

б) У каждого сотрудника есть доступ только к тем данным, которые необходимы ему для выполнения своих функциональных обязанностей. Работа с персональными данными, например с информацией о клиентах или рекомендациями, ведется особенно внимательно: доступ к таким данным существенно ограничен, данные обезличены и закодированы.

в) Каждый сотрудник компании может легко получить целостное представление обо всей деятельности компании благодаря доступным и понятным дашбордам, отчетам и аналитическим выводам. Системы раннего предупреждения оборудованы необходимыми инструментами и надежны.

• Специалисты по аналитике активно взаимодействуют со всеми подразделениями компании и помогают оценить идеи и проверить их объективность.


Самодостаточная система аналитики

• Процесс работы со стандартной отчетностью полностью автоматизирован. Большую часть рабочего времени специалисты по аналитике тратят на проведение специализированного анализа, поиск источников данных и прогнозное моделирование и оптимизацию.

• С помощью инструментов бизнес-аналитики осуществляется стандартный поиск данных, а интерфейс SQL поддерживает все остальные специализированные запросы.

Широкая функциональная грамотность при работе с данными

• Все сотрудники аналитического подразделения обладают основными аналитическими и статистическими навыками в соответствии с их должностью.

• Все лица, принимающие решения, в том числе топ-менеджмент компании, обладают функциональной грамотностью при работе с данными, могут интерпретировать статистические выводы и оценить качество проведения экспериментов.

• Существуют широкие возможности для обмена знаниями, обучения и совершенствования своих навыков благодаря участию в семинарах и курсах, чтению специальной литературы и принципам наставничества.


Объективная культура, в которой сначала устанавливаются цели

• Существует четко сформулированное, разделяемое всеми сотрудниками, доступное видение, к каким целям стремится компания. Ее стратегия, действия и тактика стимулируются прозрачной и часто упоминаемой системой ключевых показателей эффективности деятельности.


Культура, в которой задают вопросы

• В компании сформирована уважительная среда, в которой приветствуются конструктивные обсуждения, и каждый сотрудник может задать вопрос другим относительно их данных, предположений и аналитической интерпретации.

• «У вас есть данные, подтверждающие это?» — никто не должен бояться задавать этот вопрос, и все должны быть готовы на него ответить.


Культура, в которой проводятся тестирования

• Все рациональные идеи проходят тестирование (как онлайн, так и офлайн): сбор данных, изучение, повторение. Объективные эксперименты — норма.

Ценность

Конечно, вы должны обосновать, почему сотрудники должны принять это видение.


Финансы

При прочих равных условиях эффективность деятельности компании с управлением на основе данных на 5–6 % выше, чем у других, не опирающихся на данные. Кроме того, у такой компании более эффективное использование ресурсов, выше рентабельность собственных средств и рыночная ценность.

Рентабельность аналитики составляет 13,01 долл. на каждый вложенный доллар.


Руководство на основе данных

Централизованный подход к аналитической работе и поддержка со стороны руководства повышают у специалистов по аналитике степень удовлетворенности своей работой и снижают вероятность, что они захотят покинуть компанию.


Самодостаточность

Если сотрудники разных подразделений обладают навыками статистической работы и планирования экспериментов и хотя бы один сотрудник у них умеет работать с SQL, они будут более самодостаточными, независимыми, с более высокой скоростью реакции и масштабом деятельности.


Проведение тестов

Сотрудники принимают решения на основе качественных и количественных данных, полученных от настоящих покупателей. Им не приходится догадываться, как покупатели могут отреагировать на новую функцию.

Имея возможность проводить тестирования и интерпретировать их результаты, компания может быстрее внедрять инновации. За месяц сотрудники могут протестировать десятки или сотни идей по оптимизации сайта.

Реализация

Наконец, вам необходимо согласовать фактический план действий, как вы собираетесь реализовывать это видение. Чего вы ожидаете от коллег?


Руководство на основе данных

Согласуйте матрицу аналитических компетенций.

Поднимите планку качества для новых и действующих специалистов по аналитике. Стимулируйте действующих аналитиков развивать свои навыки.


Открытость и доверие

Займите активную позицию в отношении качества данных. Разработайте систему обзора, оповещений и других способов контроля для отслеживания объема данных, их качества и возможных проблем.


Самодостаточность

Изучите SQL. Команды всех бизнес-подразделений должны стать более самодостаточными и уметь проводить более специализированные исследования.


Умение работать с данными

Все менеджеры должны уметь работать со статистикой.


Объективность и постановка целей

Свяжите все проекты с главными стратегическими целями компании. Каждому сотруднику должно быть ясно, почему в компании осуществляется или не осуществляется тот или иной проект и как расставлены приоритеты.

По возможности оперируйте конкретными цифрами, например ROI.


Для любого компонента корпоративной культуры, который вы захотите внедрить в своей компании, вам потребуется ответить на вопросы что, почему и как.

Благодарности

Эта книга стала результатом совместного вклада в виде идей и помощи от коллег и экспертов. Я хочу выразить благодарность за чрезвычайно полезные советы, рекомендации и поддержку очень многим людям. Вот они: Эндрю Абел, Питер Айкен, Трейси Эллисон Олтман, Самарет Баскар, Лон Биндер, Нейл Блументаль, Йозеф Боренштайн, Льюис Брум, Трей Кози, Брайн д’Алессандро, Грег Элин, Саманта Эверитт, Марио Фариа, Стивен Фью, Том Фишбурн, Эндрю Фрэнсис Фриман, Дейв Джилбо, Кристина Ким, Ник Ким, Анджали Кумар, Грег Линден, Джейсон Гоуэнс, Себастьян Гутьеррес, Дуг Лейни, Шон Лисен, Дуг Мак, Патрик Махони, Крис Малиуот, Микайла Маркрич, Линн Массимо, Санья Матур, Мириа Мейер, Джули-Дженнифер Нгуен, Скотт Поли, Джефф Поттер, Мэтт Риццо, Макс Шрон, Анна Смит, Неллвин Томас, Дэниел Танкеланг, Джеймс Валландингхэм, Сатиш Ведантам, Дэниел Уайт и Дэн Вудс.

Кроме того, я благодарю всех своих коллег из Warby Parker, оказавших мне серьезную поддержку.

Мои искренние извинения всем, кого я ненамеренно не упомянул.

Особая моя благодарность Дэниелу Минтцу, Джули Стил, Дэну Вудсу, Лону Биндеру и Джун Эндрюс, выступившим в качестве технических редакторов и предложивших обоснованные и ценные комментарии, которые помогли мне значительно улучшить книгу.

Спасибо организаторам Data Driven Business, особенно Антанине Капчонава, и участникам форума Chief Data Officer Executive Forum, состоявшегося 12 ноября 2014 года в Нью-Йорке. Джеймс Валландингхэм внес изменения в рис. 4.1 специально для этой книги. Спасибо, Джим!

Хочу поблагодарить Себастьяна Гутьерреса за содержательную беседу и разрешение использовать некоторые примеры из его отличного курса по визуализации данных.

Я не могу обойти вниманием поддержку своих друзей и семьи, особенно моей жены Алексии, которая в шутку называла себя «книжной вдовой», а также моей мамы, которая поддерживает меня на протяжении всей жизни.

Наконец, невозможно не выразить благодарность всей великолепной команде издательства O’Reilly, особенно редактору книги Тиму Макговерну. Я признателен за проделанную работу Майку Лукидесу, Бену Лорика, Мари Богуро и производственной команде: Коллину Лобнеру, Люси Хаскинс, Дэвиду Футато, Киму Коферу, Элли Волькхаузен, Аманде Керси и Ребеке Демарест.

Об авторе

Карл Андерсон — директор направления по работе с данными компании Warby Parker в Нью-Йорке. Он отвечает за технические аспекты этого направления, поддерживает более широкую аналитическую структуру и развивает в компании корпоративную культуру на основе данных. До этого работал преимущественно в области применения вычислительных машин для решения научных задач в разных компаниях из таких сфер деятельности, как моделирование в здравоохранении, сжатие данных, робототехника, моделирование с применением исполнительных устройств. Имеет степень Ph.D. в области математической биологии, полученную в Университете Шеффилда, Великобритания.

Колофон

Птица, изображенная на обложке книги, это трехцветный спрео, или великолепный скворец (Lamprotornis superbus). Эта певчая птица семейства скворцовых обитает в восточной части Африканского континента от Эфиопии до Танзании.

Взрослые особи отличаются оперением очень красивого цвета: вверху блестящее черное, на затылке и плечах блестящее сине-зеленое. Шея, горло и грудь металлически-синего блестящего цвета. Полоса на груди и гузка белые, брюхо окрашено в красно-бурый цвет. Длина взрослых птиц составляет примерно 18 см, а размах крыльев до 40 см.

Птицы очень «социализированы» и общаются при помощи длинных призывных трелей. Живут обычно в больших стаях и часто совместно заботятся о потомстве. Их пища состоит в основном из насекомых, плодов и семян, но если предоставляется такая возможность, то могут назойливо выпрашивать корм в деревнях или городах.

Многие из представителей животного мира, которых издательство O’Reilly помещает на обложки, находятся на грани вымирания. Все они важны для нашей планеты. Узнать подробнее о том, как вы можете помочь, можно на сайте animals.oreilly.com.

Максимально полезные книги

Если у вас есть замечания и комментарии к содержанию, переводу, редактуре и корректуре, то просим написать на be_better@m-i-f.ru, вы поможете нам исправить недочеты и стать лучше.

Наши электронные книги

Дарите электронные книги

Заходите в гости:

mann-ivanov-ferber.ru

blog.mann-ivanov-ferber.ru

facebook.com/mifbooks

vk.com/mifbooks

twitter.com/mifbooks

instagram.com/mifbooks

youtube.com/user/mifbookstv

Дерево знаний

Предложите нам книгу

Ищем правильных коллег

Для корпоративных клиентов:

Полезные книги в подарок

Корпоративная библиотека

Книги ищут поддержку

Над книгой работали

Главный редактор Артем Степанов

Ответственный редактор Светлана Мотылькова

Литературный редактор Юлия Слуцкина

Арт-директор Алексей Богомолов

Верстка обложки Наталия Майкова

Верстка Екатерина Матусовская

Корректоры Мария Кантурова, Надежда Болотина


ООО «Манн, Иванов и Фербер»

mann-ivanov-ferber.ru

Электронная версия книги подготовлена компанией Webkniga.ru, 2017

 

notes

Примечания

1

Метод маркетингового исследования, суть которого заключается в том, что контрольная группа элементов сравнивается с набором тестовых групп, в которых один или несколько показателей были изменены, для того чтобы выяснить, какие из изменений улучшаю целевой показатель. Прим. ред.

2

Brynjolfsson E., Hitt L. M. and Kim H. H. Strength in Numbers: How Does Data-Driven Decisionmaking Affect Firm Performance? Social Science Research Network (2011). URL: http://ebusiness.mit.edu/research/papers/2011.12_Brynjolfsson_Hitt_Kim_Strength in Numbers_302.pdf.

3

Nucleus Research. Analytics pays back $13.01 for every dollar spent. O204 (Boston, MA: Nucleus Research, 2014), 5. URL: http://nucleusresearch.com/research/single/analytics-pays-back-13-01-for-every-dollar-spent/.

4

Уильям Эдвардс Деминг (William Edwards Deming, 1900–1993) — американский ученый, статистик и консультант по менеджменту. Создатель теории менеджмента, основанной на предложенной им же теории глубинных знаний. Прим. перев.

5

См., например: http://bit.ly/nyt-janitor и http://bit.ly/im-data-sci.

6

Good Morning America («Доброе утро, Америка») — американское телевизионное шоу, которое транслируется по утрам на канале ABC. Выходит в эфир с 1975 г. Прим. ред.

7

Techcrunch — сайт и одноименная компания, блог, описывающий продукты, стартапы и другие сайты, основанный Майклом Аррингтоном в 2005 г. Прим. ред.

8

URL: http://bit.ly/maeda-gardner.

9

Закон от 30 июля 2002 года, названный по именам его разработчиков и инициаторов: сенатора-демократа Пола Сарбейнза и конгрессмена-республиканца Майка Оксли. В соответствии с этим законом значительно ужесточились требования к финансовой отчетности. Прим. ред.

10

Dykes B. Reporting vs. Analysis: What’s the Difference? Digital Marketing Blog, October 19, 2010. URL: https://blogs.adobe.com/digitalmarketing/analytics/reporting-vs-analysis-whats-the-difference/.

11

Faria M. Acting on Analytics: How to Build a Data-Driven Enterprise. BrightTALK, September 11, 2013. URL: https://www.brighttalk.com/webcast/1829/80223.

12

Davenport T. H., Harris J. G. and Morison R. Competing on Analytics. Boston: Harvard Business Press, 2010.

13

Bosker B. Google Exec Marissa Mayer Explains Why There Aren’t More Girl Geeks. The Huffington Post, July 6, 2011. URL: http://www.huffingtonpost.com/2011/07/06/google-marissa-mayer-women-in-tech_n_891167.html.

14

SAS, Eight Levels of Analytics (Cary, NC: SAS Institute, Inc., 2008), 4. URL: https://www.sas.com/en_us/news.htmlsascom/analytics_levels.pdf.

15

Латинская фраза, означающая «к этому, для данного случая, для этой цели». В данном контексте — специальные отчеты для исследования какой-то конкретной темы. Прим. науч. ред.

16

Издана на русском языке: Дэвенпорт Т., Харрис Д. Аналитика как конкурентное преимущество. Новая наука побеждать. М.: BestBusinessBooks, 2010. Прим. ред.

17

Несмотря на то что книга Дэвенпорта и Харриса появилась на два года раньше, этот источник называют «адаптация графика, сделанного компанией SAS».

18

Shevlin R. The Eight Levels Of Analytics? The Financial Brand, October 27, 2009. URL: https://thefinancialbrand.com/46761/the-eight-levels-of-analytics/.

19

LaValle S., Hopkins M. S., Lesser E., Shockley R., Kruschwitz N. Analytics: The New Path to Value. MIT Sloan Management Review, October 24, 2010. URL: http://sloanreview.mit.edu/article/big-data-analytics-and-the-path-from-insights-to-value/.

20

Систематическая ошибка выжившего (англ. survivorship bias) — разновидность систематической ошибки отбора, когда по одной группе («выжившим») есть много данных, а по другой («погибшим») — практически нет. Так как исследователи пытаются искать общие черты среди «выживших», то упускают из виду, что не менее важная информация скрывается среди «погибших». Прим. перев.

21

Эту позицию принято обозначать аббревиатурой CDO, но мы будем давать ее полностью во избежание путаницы. Аббревиатуру CDO будем использовать для позиции Chief Data Officer. Прим. ред.

22

Томсон Нгуен (Thomson Nguyen) — основатель и СЕО (высшая исполнительная должность в компании; в российской иерархии аналог генерального директора) компании Framed Data, которая занимается различными проблемами данных в аналитике, инфраструктуре и машинном обучении для бизнеса и некоммерческих организаций. Прим. перев.

23

Eckerson W. Data Warehousing Special Report: Data Quality and the Bottom Line (Chatsworth, CA: 101communications LLC, 2002), 34. URL: http://download.101com.com/pub/tdwi/Files/DQReport.pdf

24

Seely C. E., Nicewander D., Page R. and Dysert P. A. A baseline study of medication error rates at Baylor University Medical Center in preparation for implementation of a computerized physician order entry system. Proc (Bayl Univ Med Cent). 2004 Jul 17(3): 357–361. URL: https://www.ncbi.nlm.nih.gov/pmc/articles/PMC1200672/.

25

Goldberg S. I., Niemerko A. and Turchin A. Analysis of Data Errors in Clinical Research Databases. AMIA Annu Symp Proc. 2008: 242–246. URL: https://www.ncbi.nlm.nih.gov/pmc/articles/PMC2656002/.

26

Подробную информацию о маршрутном номере можно найти по ссылке: https://en.wikipedia.org/wiki/Routing_transit_number.

27

URL: https://www.r-project.org/.

28

Подробную информацию можно найти по ссылке: https://en.wikipedia.org/wiki/Iris_flower_data_set.

29

Способность сделать приблизительный прогноз относится к недооцененным аналитическим навыкам. Я рекомендовал бы к прочтению главу 7 книги П. Джанерта Data Analysis with Open Source Tools (2011).

30

URL: https://cran.r-project.org/web/packages/Amelia/index.html.

31

URL: https://cloud.google.com/prediction/docs/smart_autofill_add_on.

32

Expectation-maximization (EM) algorithm (англ.) — алгоритм, который используется в математической статистике для нахождения оценок максимального правдоподобия параметров вероятностных моделей, в случае когда модель зависит от некоторых скрытых переменных. Прим. науч. ред.

33

Последняя издана на русском языке: Литтл Р., Рубин Д. Статистический анализ данных с пропусками. М.: Финансы и статистика, 1990. Прим. ред.

34

URL: https://www.youtube.com/watch?v=zP638EdC0N4.

35

URL: http://edition.cnn.com/TECH/space/9909/30/mars.metric.02/

36

Чарльз Бэббидж (1791–1871) — английский математик, изобретатель первой аналитической вычислительной машины. Прим. перев.

37

Тим Бернерс-Ли (р. 1955) — британский ученый, создатель Всемирной паутины. Автор множества разработок в области информационных технологий. Прим. перев.

38

Подробнее о книге: http://www.oreilly.com/data/free/building-data-science-teams.csp.

39

Anderson C. The Long Tail: Why the Future of Business Is Selling Less of More. New York: Hachette Books, 2005. Издана на русском языке: Андерсон К. Длинный хвост. Эффективная модель бизнеса в Интернете. М.: Манн, Иванов и Фербер, 2012. Прим. ред.

40

Fortuny E. J. de, Martens D. and Provost F. Predictive Modeling with Big Data: Is Bigger Really Better? Big Data 1, no. 4 (2013): 215–226. URL: http://online.liebertpub.com/doi/full/10.1089/big.2013.0037

41

Впервые встречается у Д. Лейни. 3D Data Management: Controlling Data Volume, Velocity and Variety. Application Delivery Strategies by META Group Inc., February 6, 2001. URL: http://blogs.gartner.com/doug-laney/files/2012/01/ad949-3D-Data-Management-Controlling-Data-Volume-Velocity-and-Variety.pdf

42

URL: http://www.mkomo.com/cost-per-gigabyte-update

43

Подробную информацию можно найти по ссылке: https://en.wikipedia.org/wiki/Simple_random_sample.

44

URL: https://github.com/d3/d3/wiki/Gallery.

45

d’Alessandro B., Perlich C. and Raeder T. Bigger is Better, But At What Cost? Big Data 2, no. 2 (2014): 87–96. URL: http://online.liebertpub.com/doi/pdfplus/10.1089/big.2014.0010

46

URL: https://aws.amazon.com/ru/s3/.

47

URL: https://aws.amazon.com/ru/glacier/.

48

URL: https://techcrunch.com/2014/09/06/three-marks-of-real-data-science/.

49

URL: https://twitter.com/josh_wills/status/198093512149958656.

50

Conway D. The Data Science Venn Diagram, September 30, 2010. URL: http://drewconway.com/zia/2013/3/26/the-data-science-venn-diagram

Anderson C. What is a data scientist? December 3, 2012. URL: http://www.p-value.info/2012/12/what-is-data-scientist.html

51

URL: http://thespread.us/

52

URL: https://www.bls.gov/ooh/math/statisticians.htm.

53

Ph.D. (лат. Philosophiae Doctor, доктор философии) — ученая степень, которая присуждается в западной системе высшего образования. Эта степень не имеет никакого отношения к философии (кроме исторического) и присуждается во всех научных областях. По разным мнениям, эта степень соответствует степеням кандидата или доктора наук в нашей стране (или находится между ними). Прим. ред.

54

Джефф Безос — основатель и генеральный директор Amazon. Его «правило двух пицц» гласит: группа должна быть настолько малочисленной, чтобы ее можно было накормить всего двумя пиццами. Обычно это команда из пяти-семи человек. Прим. перев.

55

Этому посвящена книга Analyzing the Analyzers. URL: http://www.oreilly.com/data/free/analyzing-the-analyzers.csp

56

Подробное обсуждение этого вопроса можно найти в книге Стивена Фью Now You See It (Analytics Press), с. 19–24.

57

URL: https://www.youtube.com/watch?v=RJFwsZwTBgg.

58

URL: https://www.r-project.org/.

59

URL: https://en.wikipedia.org/wiki/Iris_flower_data_set.

60

Об эффективных инструментах с открытым исходным кодом можно узнать из книги П. Джанерта Data Analysis with Open Source Tools (O’Reilly).

61

URL: https://www.w3schools.com/sql/.

62

Начать знакомство с SQL можно, например, с книги Дж. Крибича Using SQLite (O’Reilly).

63

URL: https://www.cygwin.com/.

64

URL: http://www.oreilly.com/data/free/files/stratasurvey.pdf

65

Rudin K. Big Impact from Big Data, 29 октября 2013 года, видеоклип, YouTube. URL: https://www.youtube.com/watch?v=RJFwsZwTBgg. Davenport T. H. and Harris J. G.. Analytics at Work. Boston: Harvard Business Press, 2007.

66

Jain P. To Centralize Analytics or Not, That is the Question, Forbes, February 15, 2013. URL: https://www.forbes.com/forbes/welcome/?toURL=https://www.forbes.com/sites/piyankajain/2013/02/15/to-centralize-analytics-or-not/&refURL=&referrer=.

67

LaValle S., Hopkins M. S., Lesser E., Shockley R. and Kruschwitz N. Analytics: the New Path to Value, MIT Sloan Management Review 52, no. 2 (2010): Figure 9. URL: http://sloanreview.mit.edu/article/big-data-analytics-and-the-path-from-insights-to-value/

68

Stone J. Centralized vs Decentralized Analytics: All You Need To Know, April 22, 2012. URL: http://jebstone.com/2012/04/centralized-vs-decentralized-analytics-all-you-need-to-know/

69

Davenport T. H. and Harris J. G. Analytics at Work. Boston: Harvard Business Press, 2007. Khalil E. and Wood K. Aligning Data Science — Making Organizational Structures Work, (Tysons Corner, VA: Booz Allen Hamilton, Inc., 2014).

70

Harris J. G., Craig E. and Egan H. How to Organize Your Analytical Talent (Dublin: Accenture Institute for High Performance, 2009).

71

Davenport T. H., Harris J. G. and Morison R. Competing on Analytics. Boston: Harvard Business Press, 2010.

72

Рональд Коуз (1910–2013) — американский экономист, лауреат Нобелевской премии по экономике. Прим. перев.

73

Сторителлинг (от англ. storytelling) — маркетинговый прием, использующий медиапотенциал с целью передачи информации и транслирование смыслов посредством рассказывания историй. Прим. перев.

74

URL: https://en.wikipedia.org/wiki/Insight.

75

URL: http://foldoc.org/information

76

URL: http://www.infogineering.net/data-information-knowledge.htm

77

URL: http://simplystatistics.org/

78

По крайней мере, он рассматривает эти шесть типов анализа данных в рамках своего курса Data Analysis Course.

79

URL: https://en.wikipedia.org/wiki/5_Whys.

80

URL: https://www.sysomos.com/2009/08/05/exploring-twitters-most-active-users/.

81

URL: https://www.oreilly.com/ideas/tweets-loud-and-quiet.

82

URL: https://en.wikipedia.org/wiki/Kurtosis.

83

Anscombe F. J. Graphs in statistical analysis, American Statistician 27 (1973): 17–21.

84

URL: https://github.com/d3/d3/wiki/Gallery.

85

URL: https://www.openintro.org/stat/textbook.php.

86

URL: http://brainsonfire.com/2013/02/12/7-awesome-examples-of-surprise-and-delight-that-will-blow-your-mind/

87

Taleb N. N. The Black Swan. The Impact of the Improbable (New York: Penguin Press, 2007). Издана на русском языке: Талеб Н. Черный лебедь. Под знаком непредсказуемости. М.: Азбука-Аттикус: КоЛибри, 2016. Прим. ред.

88

URL: http://scikit-learn.org/stable/

89

URL: https://speakerdeck.com/ogrisel/predictive-analytics.

90

Fortuny E. J. de, Martens D. and Provost F. Predictive Modeling with Big Data: Is Bigger Really Better? Big Data 1, no. 4 (2013): 215–226. URL: http://online.liebertpub.com/doi/full/10.1089/big.2013.0037

91

Если не верите, проверьте ложные корреляции (например, объем потребления сыра в США коррелирует с количеством людей, умерших от того, что запутались в собственном постельном белье). URL: http://www.tylervigen.com/spurious-correlations

92

URL: http://www.forentrepreneurs.com/designing-startup-metrics-to-drive-successful-behavior/

93

Робастность (от англ. robust — «крепкий», «твердый», «устойчивый») — свойство статистического метода, характеризующее независимость влияния на результат исследования различного рода выбросов, устойчивость к помехам. Прим. перев.

94

URL: http://blog.sfgate.com/pender/2014/08/21/these-tech-worker-wages-will-astound-you/

95

URL: http://www.oreilly.com/data/free/files/being-a-data-skeptic.pdf

96

URL: http://www.auroraadvisors.com/articles/Webber-Metrics.pdf

97

URL: https://www.kaushik.net/avinash/rules-choosing-web-analytics-key-performance-indicators/.

98

URL: http://www.oreilly.com/data/free/building-data-science-teams.csp

99

Feinberg R. A., Kim I-S., Hokama L., de Ruyter K. and Keen C. Operational deteminants of caller satisfaction in the call center. Int. J. Service Industry Management 11, no. 2 (2000): 131–141.

100

URL: https://en.wikipedia.org/wiki/SMART_criteria.

101

URL: https://www.linkedin.com/pulse/20130905053105-64875646-the-75-kpis-every-manager-needs-to-know.

102

Marr B. Key Performance Indicators (KPI): The 75 measures every manager needs to know. London: Financial Times Press, 2012.

103

Kaplan R. S. and Norton D. P. The Balanced Scorecard: Translating Strategy into Action. Harvard Business Review Press, Boston: Harvard Business Preview Press, 1996.

104

Kaplan R. S. and Norton D. P. Linking the Balanced Scorecard to Strategy, California Management Review 39, no. 1 (1996): 53–79.

105

URL: http://www.onvectorconsulting.com/too-many-kpis-tips-for-metrics-hoarders/

106

URL: http://www.staceybarr.com/measure-up/setting-your-goals-without-jargon-hbr/.

107

Micallef M. Key Performance Indicators for Business Excellence. URL: http://www.academia.edu/12077200/Key_Performance_Indicators_for_Business_Excellence

108

См. Kerr (1975), где приводятся примеры «испорченных» мотивационных программ, и одна из причин этого — «увлечение “объективными” критериями: руководители стремились установить простые количественные стандарты, согласно которым можно было бы оценивать и вознаграждать результативность сотрудников. Подобные усилия могут быть успешными внутри компании, но, скорее всего, приведут к подмене целей, если их использовать где-то еще». URL: http://www.ou.edu/russell/UGcomp/Kerr.pdf

109

Цит. по книге М. Барлоу Data Visualization: A New Language for Storytelling (O’Reilly).

110

URL: http://www.scribblelive.com/blog/2014/10/01/graphic-continuum.

111

URL: https://github.com/d3/d3/wiki/Gallery.

112

Fox J. The Rise of the Y-Axis-Zero Fundamentalists, December 14, 2014. URL: https://byjustinfox.com/2014/12/14/the-rise-of-the-y-axis-zero-fundamentalists/.

113

Марта Стюарт (р. 1941) — американская телеведущая и писательница, получившая известность и ставшая успешной благодаря советам по домоводству. Прим. перев.

114

URL: https://eagereyes.org/blog/2013/definition-chart-junk.

115

Поищите картинки в Google по ключевой фразе «графический мусор», и вы увидите множество примеров из USA Today. К сожалению, аналитическая колонка New York Times Magazine тоже полна вопиющими примерами.

116

Как объясняет Стивен Фью, человеческий мозг во всем стремится находить закономерности. Кроме того, мы предпочитаем более простые и плавные кривые. С точки зрения вычислений они легче поддаются расшифровке. Второй вариант, отличающийся ступенчатостью, требует больше внимания, так как мозг затрачивает больше усилий на обработку информации о форме диаграммы.

117

URL: http://junkcharts.typepad.com/junk_charts/junk-charts-trifecta-checkup-the-definitive-guide.html

118

URL: https://www.reddit.com/r/dataisbeautiful/.

119

URL: https://www.reddit.com/r/dataisugly/.

120

Обе оси логарифмические. Это не очевидно на первый взгляд, но интервал по оси х составляет 100х, в то время как интервал по оси y — только 10х, так что кривая графика очень крутая. Возьмем белку. У нее соотношение: 10 г масса мозга / 1 кг масса тела. Обратите внимание на человека и дельфина — оба отстоят от кривой графика: они отличаются относительно большой массой мозга для их общей массы тела, но все равно меньше (~5x), чем у мыши.

121

URL: http://cvcl.mit.edu/papers/Borkin_etal_MemorableVisualization_TVCG2013.pdf

122

URL: https://en.wikipedia.org/wiki/KISS_principle.

123

URL: http://www.oreilly.com/data/free/data-driven.csp

124

URL: http://aberdeen.com/research/9200/RR-holisticBI.aspx/content.aspx

125

URL: https://www.youtube.com/watch?v=DQy_HFHOZug.

126

URL: https://www.kaushik.net/avinash/create-analysis-ninjas-data-driven-cultures/.

127

«Письма к провинциалу» (фр. Lettres Provinciales) — сборник из 18 писем полемического характера Блеза Паскаля, опубликованных в 1656–1657 годах.

128

McCormick PJ. Challenging Data Driven Design, WarmGun 2013, 27 ноября 2013 года. URL: https://www.youtube.com/watch?v=caOIdA9jnQg.

129

Gabbert A. The Importance of A/B Testing: 24 Marketing Experts on Their Most Surprising A/B Test, September 25, 2012. URL: http://www.wordstream.com/blog/ws/2012/09/25/a-b-testing

130

Patil D. J. and Mason H. Data Driven: Creating a Data Culture. Sebastopol, CA: O’Reilly, 2015.

131

Kohavi R. Planning, Running, and Analyzing Controlled Experiments on the Web, June 2012. URL: http://bit.ly/kohavi-planning

132

URL: http://blog.analytics-toolkit.com/2014/aa-aab-aabb-tests-cro/

133

URL: https://neliosoftware.com/blog/the-importance-of-aa-testing-no-not-a-typo/.

134

Нулевая гипотеза — основное предположение об отсутствии разницы между сравниваемыми вариантами (например, CTR в контрольной группе = CTR в тестируемой группе). Альтернативная гипотеза — то предположение, к которому вы придете, если опровергнете нулевую гипотезу. Оно может быть одним из трех типов: CTR контрольной группы!= CTR тестируемой группы; CTR контрольной группы > CTR тестируемой группы или CTR контрольной группы < CTR тестируемой группы.

Стоит придерживаться двусторонней альтернативной гипотезы (то есть!=), если у вас нет веской причины остановиться на прямой альтернативе (то есть > или <).

135

URL: https://www.youtube.com/watch?v=caOIdA9jnQg.

136

Это делает обоснованным вопрос: зачем вообще проводить тестирование? Если результаты тестирования не стимулируют действий, насколько это рациональная трата времени и сил?

137

Почему 5 %? Чаще всего его связывают с единственным предложением из работы Р. Фишера 1925 года, но на самом деле история начинается в 1881 году с Ф. Бесселя. Эта история описана в моем блоге. URL: http://www.p-value.info/2013/01/whats-significance-of-005-significance_6.html

138

URL: http://www.biostat.ucsf.edu/sampsize.html

139

URL: http://www.qubit.com/sites/default/files/pdf/mostwinningabtestresultsareillusory_0.pdf

140

http://www.exp-platform.com/documents/controlledexperimentdmkd.pdf.

141

URL: http://www.exp-platform.com/documents/controlledexperimentdmkd.pdf

142

URL: http://www.qubit.com/sites/default/files/pdf/mostwinningabtestresultsareillusory_0.pdf

143

URL: http://www.evanmiller.org/how-not-to-run-an-ab-test.html

144

URL: https://youtube.googleblog.com/2009/08/look-inside-1024-recipe-multivariate.html.

145

URL: http://www.austincc.edu/mparker/stat/nov04/talk_nov04.pdf

146

URL: https://www.fastcompany.com/3020699/bottom-line/why-intuit-founder-scott-cook-wants-you-to-stop-listening-to-your-boss.

147

URL: http://www.p-value.info/2013/04/how-do-you-create-data-driven.html

148

URL: https://www.forbes.com/forbes/welcome/?toURL=https://www.forbes.com/sites/parmyolson/2015/01/21/jawbone-guinea-pig-economy/&refURL=&referrer=.

149

Economist Intelligence Unit, Decisive Action: how businesses make decisions and how they could do it better (London: Economist Intelligence Unit, 2014). URL: http://www.datascienceassn.org/sites/default/files/Decisive%20Action%20-%20How%20Businesses%20Make%20Decisions%20and%20How%20They%2 °Could%20do%20it%20Better.pdf

150

Игра слов строится на многозначности английского слова adder, которое используется в оригинале и имеет следующие значения: 1) гадюка, змея; 2) счетный прибор. Прим. перев. Подробнее см. по ссылке: https://en.wikipedia.org/wiki/Adder.

151

Lynch M. Is your HiPPO holding you back? Financial Times, September 14, 2009. URL: https://www.ft.com/content/62f37a4a-931c-11de-b146-00144feabdc0.

152

Поведенческая модель Фогга (Fogg Behavior Model), или FBM, — модель, согласно которой поступок — это следствие трех факторов: мотивации, способностей и стимула.

153

URL: http://www.pwc.com/us/en/advisory-services/data-possibilities/big-decision-survey.html

154

URL: https://www.gyro.com/onlyhuman/gyro-only-human.pdf.

155

URL: http://www-05.ibm.com/de/services/bao/pdf/gbe03211-usen-00.pdf

156

Отчет размещен на сайте http://www.eiu.com/.

157

URL: http://scottberkun.com/2013/danger-of-faith-in-data

158

Бен Шалом Бернанке (Ben Shalom Bernanke; р. 1953) — американский экономист, председатель Совета экономических консультантов при Белом доме. Председатель совета управляющих Федеральной резервной системы США с февраля 2006 до февраля 2014 года. Прим. ред.

159

URL: https://www.naesp.org/resources/2/Research_Roundup/2008/RR2008v24n3a3.pdf.

160

URL: http://www.pwc.com/us/en/advisory-services/data-possibilities/big-decision-survey.html

161

URL: https://hbr.org/resources/pdfs/tools/HBR_Qlik_Report_May2014.pdf.

162

URL: http://www-05.ibm.com/de/services/bao/pdf/gbe03211-usen-00.pdf

163

Mussweiler T. and Schneller K. “What goes up must come down” — how charts influence decisions to buy and sell stocks, Journal of Behavioral Finance 4, no. 3 (2003): 121–130.

164

URL: https://www.fastcompany.com/45655/too-much-information.

165

Издана на русском языке: Шварц Б. Парадокс выбора. Почему «больше» значит «меньше» М.: Добрая книга, 2005.

166

Shah S., Horne A. and Capella J. Good data won’t guarantee good decisions, Harvard Business Review 90, no. 4 (2012): 23–25.

167

Издана на русском языке: Уэлч Дж., Бирн Дж. Джек Уэлч. История менеджера. М.: Манн, Иванов и Фербер, 2012.

168

URL: https://en.wikipedia.org/wiki/Category: Cognitive_biases.

169

Изложенное дальше преимущественно основывается на книге Даниэля Канемана Thinking, Fast and Slow (Farrar, Straus and Giroux, 2011) (издана на русском языке: Канеман Д. Думай медленно… решай быстро. М.: АСТ, 2016). Настоятельно рекомендую эту книгу к прочтению. Если у вас нет времени прочитать книгу полностью, прочитайте хотя бы отличную обзорную статью: Kahneman D. and. Klein G. Conditions for intuitive expertise: A failure to disagree, American Psychologist 64, no. 6 (2009): 515–526. А также McAfee A. The Future of Decision Making: Less Intuition, More Evidence, Harvard Business Review, January 7, 2010. URL: https://hbr.org/2010/01/the-future-of-decision-making.

170

Frick W. What to Do When People Draw Different Conclusions From the Same Data. Harvard Business Review, March 31, 2015. URL: https://hbr.org/2015/03/what-to-do-when-people-draw-different-conclusions-from-the-same-data.

171

URL: https://www.nytimes.com/2015/05/15/nyregion/witness-accounts-in-midtown-hammer-attack-show-the-power-of-false-memory.html?smprod=nytcore-iphone&smid=nytcore-iphone-share&_r=0.

172

URL: http://www.dartmouth.edu/~nyhan/nyhan-reifler.pdf

173

URL: https://www.youtube.com/watch?v=7mpe6luA5Os.

174

Danzinger S., Levav J. and Avnaim-Pesso L. Extraneous factors in judicial decisions. Proc. Natl. Acad. Sci. 108 (2011): 6889–6892.

175

URL: https://www.youtube.com/watch?v=7mpe6luA5Os.

176

Я обратил внимание, что, когда радиостанции составляют рейтинги любимых песен слушателей «всех времен», в топ-20 преимущественно входят песни, популярные в течение последнего года. Это «эффект новизны» в действии. Он работает и при совершении покупок: если последний опыт совершения покупки был негативным, он перекроет позитивное впечатление, которое сложилось от нескольких предыдущих покупок. Успех определяется лишь тем, насколько успешным был последний раз.

177

Fiske S. T. and Dupree C. Gaining trust as well as respect in communicating to motivated audiences about science topics, PNAS 111, no. 4 (2014): 13593–13597. URL: http://www.pnas.org/content/111/Supplement_4/13593.full

178

Macnamara B. N., Hambrick D. Z. and Oswald F. L. Deliberate practice and performance in music, games, sports, education, and professions: a meta analysis, Psychological Science 25 (2014): 1608–1618.

179

URL: http://bjfogg.com/fbm_files/page4_1.pdf

180

URL: https://www.youtube.com/watch?v=u6XAPnuFjJc.

181

URL: https://www.accenture.com/us-en/~/media/Accenture/Conversion-Assets/DotCom/Documents/Global/PDF/Technology_6/Accenture-Analytics-In-Action-Survey.pdf.

182

URL: https://hbr.org/2013/04/how-p-and-g-presents-data.

183

URL: https://www.uglyresearch.com/datatodecision.php.

184

URL: https://plus.google.com/+JonathanRosenberg/posts/DaUY9tT8Ev6.

185

Economist Intelligence Unit. The Virtuous Circle of Data: Engaging employees in data and transforming your business (London: Economist Intelligence Unit, 2015). URL: http://live.wavecast.co/virtuouscircleofdata/

186

Nadella S. A data culture for everyone, The Official Microsoft Blog, April 15, 2014. URL: https://blogs.microsoft.com/blog/2014/04/15/a-data-culture-for-everyone/#sm.00000q4vufg9naev6waguvc6wipz7.

187

Cobb J. Data Tip #2 — Build a Data-Driven Culture, Captricity Blog, October 30, 2013. URL: http://captricity.com/blog/data-tip-2-build-a-data-driven-culture/

188

URL: https://www.tableau.com/economist-fostering-data-driven-culture.

189

URL: https://hbr.org/resources/pdfs/tools/HBR_Qlik_Report_May2014.pdf.

190

URL: http://www.oreilly.com/data/free/data-driven.csp

191

Accenture Technology Vision 2012. Data Culture. URL: https://www.accenture.com/us-en/new-applied-now.

192

P-значение — величина, используемая при тестировании статистических гипотез. Наименьшая величина уровня значимости, при которой нулевая гипотеза отвергается для данного значения статистики критерия. Прим. перев.

193

URL: https://conferences.oreilly.com/strata/stratany2014/public/schedule/detail/37642.

194

URL: http://live.wavecast.co/virtuouscircleofdata/

195

URL: https://www.youtube.com/watch?v=RJFwsZwTBgg.

196

URL: http://fortune.com/2013/06/13/what-i-learned-at-facebooks-big-data-bootcamp/

197

URL: https://www.openintro.org/stat/textbook.php.

198

Подробнее о ведении проектов по работе с данными см. Max Shron’s Thinking with Data (O’Reilly) и Judah Phillips’s Building a Digital Analytics Organization (Pearson FT Press).

199

Arsenault J. How to Create a Data-driven Culture. PagerDuty, October 2, 2014. URL: http://fortune.com/2013/06/13/what-i-learned-at-facebooks-big-data-bootcamp/

200

Например, активный залог (фокус на субъекте действия): «Мы применили удобрения для растений», — или пассивный залог (фокус на объекте): «Растения были удобрены».

201

URL: https://pages.questexweb.com/FierceTechExec-Pub-Signup_FierceTechExec-Signup-Offer.html.

202

URL: https://plus.google.com/+JonathanRosenberg/posts/DaUY9tT8Ev6.

203

Economist Intelligence Unit. The Virtuous Circle of Data: Engaging employees in data and transforming your business (London: Economist Intelligence Unit, 2015). URL: http://live.wavecast.co/virtuouscircleofdata/

204

Steele J. Understanding the Chief Data Officer. Sebastopol, CA: O’Reilly, 2015.

205

Shaw T., Ladley J. and Roe C. Status of the Chief Data Officer: An update on the CDO role in organizations today, Dataversity, November 5, 2014. URL: http://whitepapers.dataversity.net/content42609/

206

URL: https://www.wsj.com/articles/SB10001424052702304256404579449290361956838.

207

Сегодня в мире насчитывается примерно 200 CDO. По прогнозу исследовательской и консалтинговой компании Gartner, к 2015 году в 25 % крупных международных корпораций будет должность директора по большим данным. Шоу и др. предполагают, что число CDO будет удваиваться примерно каждые 15–18 месяцев в течение следующих пяти лет. URL: http://www.gartner.com/newsroom/id/2659215

208

Хотя постепенно эта управленческая позиция начинает появляться в компаниях, действующих в таких областях, как информационные услуги, страхование, электронная коммерция (Shaw et al., 2014), а также медиа и производство (цит. по Д. Велланте). URL: https://www.youtube.com/watch?v=_LeVQ8yw4t4.

209

URL: https://www.information-management.com/news/chief-data-officers-battle-complexity-complacency-wells-thomas.

210

Crosman P. Chief Data Officers Battle Complexity, Complacency: Wells’ Thomas, Information Management, October 30, 2014. URL: https://www.information-management.com/news/chief-data-officers-battle-complexity-complacency-wells-thomas.

211

IBM Software, Insights for the New Chief Data Officer, IBM Corp., June 2014. URL: https://www.information-management.com/news/chief-data-officers-battle-complexity-complacency-wells-thomas. См. Также: The Role of Chief Data Officer in the 21st Century. URL: https://www.cutter.com/article/role-chief-data-officer-21st-century-400806.

212

Anderson C. Creating a Data-Driven Organization: Two Years On, April 6, 2015. URL: http://www.p-value.info/2015/04/creating-data-driven-organization-two_6.html

213

Компьютеры могут взаимодействовать и обмениваться данными посредством интерфейсов программирования приложений (APIs).

214

ИТ-евангелист (ИТ-пропагандист) — специалист, профессионально занимающийся пропагандой в сфере информационных технологий. Как правило, это человек, который аккумулирует вокруг себя некоторую массу людей с целью создания целевой аудитории для продвижения продукта на рынке и утверждения его как технологического стандарта с возможностью возникновения сетевого эффекта. Прим. перев.

215

Конечно, в этом правиле есть исключения. Джон Минкофф — CDO бюро по обеспечению исполнения Федеральной комиссии по связи США. Его команда работает в основном с данными обвинительных решений, и ни у одного другого бюро ФКС нет доступа к их данным, что вполне объяснимо.

216

Aiken P. The Precarious State of the CDO: Insights into a burgeoning role, Data Blueprint, July 16, 2013.

217

URL: http://datablueprint.com/publications/2013-The-Precarious-State-of-the-CDO.pdf.

218

Шоу и др. (2014) утверждают, что «CDO в большинстве случаев подчиняется генеральному или операционному директору или другому первому лицу компании. Очень немногие CDO подчиняются директору по информационным технологиям, а скорее занимают равную с ним позицию». Возможно, ситуация значительно изменилась за один год. Тем не менее следует учитывать, что размер выборки Шоу существенно меньше, а значит, здесь может иметь место эффект размера выборки, «ошибка выжившего» (опрашиваемые Шоу специалисты были более успешными и имели большую степень поддержки) или другие факторы.

219

URL: https://www.gartner.com/doc/2648615/cio-advisory-chief-data-officer.

220

Logan D. and Raskino M. CIO Advisory: The Chief Data Officer Trend Gains Momentum, January 13, 2014. URL: https://www.gartner.com/doc/2648615/cio-advisory-chief-data-officer.

221

Reyes J. Why Philadelphia’s first Chief Data Officer quit, Technical.ly Philly, June 19, 2014. URL: https://technical.ly/philly/2014/06/19/why-philadelphia-chief-data-officer-quit/.

222

По словам Питера, команда по работе с данными начала наращивать обороты, когда Bank of America сконцентрировался на коммерческой ценности, особенно на углублении взаимоотношений с клиентами. С тем посылом, который шел от главы банка Брайна Мойнихэна, у сотрудников были причины и стимулы стремиться к работе с качественными данными, обмену информацией и управлению на основе данных.

223

Federal Reserve Board. Strategic Framework 2012–2015, 2013. URL: https://www.federalreserve.gov/publications/gpra/2013-strategic-themes.htm#subsection-153-AC33F9CB.

224

URL: http://whitepapers.dataversity.net/content42609.

225

URL: https://www.youtube.com/watch?v=_LeVQ8yw4t4.

226

Bien F. It’s Time To Welcome The Chief Analytics Officer To The C-Suite, Fast Company, July 28, 2014. URL: https://www.fastcompany.com/3033590/the-future-of-work/its-time-to-welcome-the-chief-analytics-officer-to-the-c-suite.

227

O’Regan R. Chief analytics officer: The ultimate big data job? Computerworld, October 3, 2014. URL: http://cw.com.hk/feature/chief-analytics-officer-ultimate-big-data-job.

228

Rajaram D. Does Your Company Need A Chief Analytics Officer? Forbes, August 8, 2013. URL: https://www.forbes.com/sites/ciocentral/2013/08/08/does-your-company-need-a-chief-analytics-officer/.

229

Akmeemana C., Stubbs E., Schutz L. and Kestle J. Do You Need a Chief Analytics Officer? Ontario: Huntel Global, 2013. URL: http://www.huntelglobal.com/wp-content/uploads/HG_Whitepaper_CAO-LowRes.pdf.

230

Netke S. and Rangaswami M. R. Selecting a Chief Analytics Officer — You Are What You Analyze, SandHill Group, March 3, 2014. URL: http://sandhill.com/article/selecting-a-chief-analytics-officer-you-are-what-you-analyze/. У меня не было лишних 1995 долл., чтобы прочитать полную версию доклада.

231

Согласно графику развития новых технологий от компании Gartner «Hype cycle for emerging technologies» в 2014 году, большие данные практически в шаге от того, чтобы покинуть «Пик чрезмерных ожиданий» и опуститься в точку «Избавление от иллюзий». URL: http://www.gartner.com/newsroom/id/2819918.

232

Franks B. Do You Know Who Owns Analytics at Your Company? Harvard Business Review, September 23, 2014. URL: https://hbr.org/2014/09/do-you-know-who-owns-analytics-at-your-company.

233

Akmeemana C., Stubbs E., Schutz L. and Kestle J. Do You Need a Chief Analytics Officer? Ontario: Huntel Global, 2013. URL: http://www.huntelglobal.com/wp-content/uploads/HG_Whitepaper_CAO-LowRes.pdf.

234

Могу предположить, что большая часть этих выводов будет сгенерирована автоматически, посредством алгоритмов машинного обучения, усиленных еще более сложными технологиями, например такими, как методы глубокого обучения следующего поколения.

235

URL: http://cdoclub.com/publications/.

236

Интернет вещей (от англ. Internet of Things, IoT) — концепция вычислительной сети физических предметов («вещей»), оснащенных встроенными технологиями для взаимодействия друг с другом или с внешней средой, исключающая из части действий и операций необходимость участия человека. Прим. перев.

237

URL: http://www.oliviernaimi.com/the-emerging-chief-digital-officer.html.

238

Franks B. Do You Know Who Owns Analytics at Your Company? Harvard Business Review, September 23, 2014. URL: https://hbr.org/2014/09/do-you-know-who-owns-analytics-at-your-company.

239

Brown B., Court D. and Willmott P. Mobilizing your C-suite for big-data analytics, McKinsey Quarterly, November 2013. URL: http://www.mckinsey.com/business-functions/digital-mckinsey/our-insights/mobilizing-your-c-suite-for-big-data-analytics

240

Sprenger P. Sun on Privacy: «Get Over It», Wired, January 26, 1999. URL: http://archive.wired.com/politics/law/news/1999/01/17538

241

Federal Trade Commission. Privacy Online: A Report to Congress, June 1998. URL: https://www.ftc.gov/sites/default/files/documents/reports/privacy-online-report-congress/priv-23a.pdf.

242

URL: http://content.usatoday.com/communities/technologylive/post/2011/03/study-80-percent-of-children-under-5-use-internet-weekly/1#.WOYFZLvyi2x

243

Kosoff M. Uber’s Top New York Executive Is Being Investigated After Using Uber’s «God View» Tool To Track A Journalist’s Location (http://bit.ly/bi-uber-godview), Business Insider, November 19, 2014. URL: http://www.businessinsider.com/ubers-new-york-manager-investigated-for-using-god-view-2014-11.

244

Sims P. Can We Trust Uber? URL: http://bit.ly/sims-uber Silicon Guild, September 26, 2014

245

URL: http://www.danah.org/papers/talks/2010/SXSW2010.html

246

См. правила хранения персональных данных Uber’s Data Privacy Policy. URL: http://bit.ly/uber-privacy-policy и статью Слейта — URL: http://bit.ly/slate-uber-privacy.

247

URL: http://www.bbc.com/news/technology-22772321

248

URL: https://blog.codepen.io/legal/privacy/.

249

URL: https://creativecommons.org/.

250

URL: https://www.facebook.com/policy.php.

251

URL: https://creativecommons.org/.

252

Лоуренс Лессиг видит это следующим образом: https://www.youtube.com/watch?v=cXoXXbo_mL4.

253

Эдвард Джозеф Сноуден (Edward Joseph Snowden, р. 1983) — американский технический специалист и спецагент, бывший сотрудник ЦРУ и Агентства национальной безопасности США. Прим. ред.

254

URL: https://immersion.media.mit.edu/.

255

См. также: Chen B. X. Using E-Mail Data to Connect the Dots of Your Life, The New York Times, July 5, 2013. URL: https://bits.blogs.nytimes.com/2013/07/05/using-e-mail-data-to-connect-the-dots-of-your-life/.

256

Sweeney L. Simple Demographics Often Identify People Uniquely, Carnegie Mellon University, 2000. URL: http://dataprivacylab.org/projects/identifiability/paper1.pdf

257

Жорж-Пьер Сёра (Georges Seurat, 1859–1891) — французский художник-постимпрессионист, основатель неоимпрессионизма, создатель метода живописи под названием дивизионизм, или пуантилизм. Прим. перев.

258

Пуантилизм, или дивизионизм — стилистическое направление в живописи неоимпрессионизма, возникшее во Франции около 1885 года, в основе которого лежит манера письма раздельными мазками правильной, точечной или прямоугольной формы. Прим. перев.

259

Duhigg C. How Companies Learn Your Secrets, The New York Times, February 16, 2012. URL: http://www.nytimes.com/2012/02/19/magazine/shopping-habits.html

260

Phelps S. Heroic Customer Service by a Senior Executive at Warby Parker. Forbes, August 1, 2014. URL: https://www.forbes.com/sites/stanphelps/2014/08/01/heroic-customer-service-by-a-senior-executive-at-warby-parker/.

261

The Magic School Bus («Волшебный школьный автобус») — познавательно-приключенческий мультсериал по мотивам комиксов Джоанны Коул; Gilmore Girls («Девочки Гилмор») — американский комедийно-драматический телесериал; M*A*S*H — американский телесериал, созданный по мотивам романа Ричарда Хукера «МЭШ: роман о трех армейских докторах», последующей серии рассказов и кинофильма M*A*S*H. Прим. перев.

262

URL: https://www.google.ru/search?q=gertrude&tbm=isch&gws_rd=cr&ei=yKOwWL6oNKKR6ATMgLSIDg.

263

Аналитическое подразделение журнала Economist, Fostering a Data-Driven Culture (London: Economist Intelligence Unit, 2013). URL: https://www.tableau.com/economist-fostering-data-driven-culture.

264

URL: https://en.wikipedia.org/wiki/Uncle_Ben.

265

Geckoboard and Econsultancy. Data Driven Culture: A global survey on the state of data driven culture in startups, 2013. URL: https://econsultancy.com/reports/data-driven-culture.

266

URL: https://en.wikipedia.org/wiki/Founder_effect.

267

URL: https://en.wikipedia.org/wiki/Path_dependence.

268

Patil R. Supermarket Tesco pioneers Big Data, Dataconomy, February 5, 2014. URL: http://dataconomy.com/2014/02/tesco-pioneers-big-data/

269

Schrage M. Tesco’s Downfall Is a Warning to Data-Driven Retailers, Harvard Busines Review, October 28, 2014. URL: https://hbr.org/2014/10/tescos-downfall-is-a-warning-to-data-driven-retailers.

270

Ruddick G. Clubcard built the Tesco of today, but it could be time to ditch it, The Telegraph, January 16, 2014. URL: http://www.telegraph.co.uk/finance/newsbysector/retailandconsumer/10577685/Clubcard-built-the-Tesco-of-today-but-it-could-be-time-to-ditch-it.html

271

Издана на русском языке: Дэвенпорт Т., Харрис Дж. Аналитика как конкурентное преимущество. Новая наука побеждать. М.: BestBusinessBooks, 2010.

272

Издана на русском языке: Сигель Э. Просчитать будущее. Кто кликнет, купит, соврет или умрет. М.: Альпина Паблишер, 2014.

273

Издана на русском языке: Сильвер Н. Сигнал и шум. Почему одни прогнозы сбываются, а другие — нет. М.: Азбука-Аттикус: КоЛибри, 2000.

274

Издана на русском языке: Канеман Д. Думай медленно… Решай быстро. М.: АСТ, 2016.

275

URL: http://www.p-value.info/2012/12/on-unreasonable-effectiveness-of-data.html

276

Halevy A., Norvig P. and Pereira F. The Unreasonable Effectiveness of Data. Intelligent Systems, IEEE 24, no. 2 (2009): 8–12.

277

Web scale — так аналитики Gartner определили термин, описывающий новый подход к вычислениям, разработанный и опробованный на практике такими облачными провайдерами, как Google, Amazon, Rackspace, Netflix, Facebook и другими. Фактически это инновационная методология построения дата-центров и программной архитектуры, совокупно объединяющей такие разные концепции, как масштабируемость, интегрируемость, устойчивость к сбоям, специализация и пр. Прим. науч. ред.

278

URL: https://www.youtube.com/watch?v=yvDCzhbjYWs.

279

Hays J. and Efros A. A. Scene Completion Using Millions of Photographs. Proceedings of ACM SIGGRAPH 2007, San Diego, CA, August, 5–9, 2007, pp. 1–7. URL: http://graphics.cs.cmu.edu/projects/scene-completion/scene-completion.pdf

280

URL: https://en.wikipedia.org/wiki/Law_of_large_numbers.

281

Skomoroch P. Developing Data Products, December 5, 2012. URL: https://www.slideshare.net/pskomoroch/developing-data-products.

282

Analytics Talk: Peter Skomoroch, December 13, 2012. URL: https://www.airbnb.ru/meetups/ejs83rxek-analytics-talk-peter-skomoroch.

283

URL: https://en.wikipedia.org/wiki/Curse_of_dimensionality.