Лучшие Высказывания о Data, Базах Данных и Людях, Которые с Ними Живут
«Мы верим в Бога. Все остальные пусть принесут данные» — У. Эдвардс Деминг. Эта фраза, брошенная полвека назад, сегодня звучит как молитва каждого дата-инженера, аналитика и CEO, который хоть раз открывал дашборд в понедельник утром.
Данные — новая нефть? Нет. Данные — новый кислород
Когда британский математик Клайв Хамби в 2006 году произнёс фразу «Data is the new oil» (Данные — это новая нефть), он, вероятно, не предполагал, что она станет самым цитируемым клише технологической эпохи. Её повторяют на конференциях, пишут на слайдах и вставляют в резюме.
Но Хамби сказал кое-что важнее: данные, как и нефть, бесполезны в сыром виде. Их нужно добыть, очистить, переработать — и только тогда они обретают ценность. Разница в том, что нефть заканчивается, а данные — нет. Они множатся быстрее, чем мы успеваем их понять.
Другой визионер, Питер Сондергаард, старший вице-президент Gartner Research, пошёл ещё дальше: «Информация — это нефть XXI века, а аналитика — двигатель внутреннего сгорания». Красиво. Точно. И немного пугающе — потому что двигатель без водителя едет в стену.
Как говорится: данные без анализа — это склад без кладовщика: всё есть, но никто не знает где.
Шерлок Холмс был первым дата-инженером
Мало кто задумывается, но один из самых известных афоризмов о данных принадлежит вымышленному персонажу. Шерлок Холмс у Конан Дойля произнёс фразу, которая стала священным текстом для каждого аналитика:
«Строить теории, не имея данных, — грубейшая ошибка»
Холмс собирал данные: следы на ковре, пепел от сигары, расписание поездов. Он не гадал — он анализировал. В этом смысле Шерлок Холмс — первый литературный дата-сайентист: человек, который верил фактам, а не интуиции.
Через сто с лишним лет бывший CEO Netscape Джим Барксдейл переформулировал эту мысль для корпоративного мира — и получилось ещё острее: «Если у нас есть данные — давайте смотреть на данные. Если всё, что у нас есть, — это мнения, тогда давайте воспользуемся моим». Перевод на русский бизнес-язык: кто пришёл без цифр — тот пришёл послушать.
Тим Бернерс-Ли: Данные переживут системы
Создатель Всемирной паутины Тим Бернерс-Ли — человек, который в буквальном смысле построил дом для всех данных мира — оставил фразу, которую стоит выгравировать на каждом сервере:
«Данные — это драгоценность, и они прослужат дольше, чем системы, в которых хранятся»
Задумайтесь: серверы устаревают, языки программирования умирают, компании банкротятся — а данные живут. Записи Шумера на глиняных табличках — это база данных, которой 5000 лет. Она пережила империю, которая её создала. Пережила язык, на котором была написана. Пережила глину, из которой сделана — потому что данные были скопированы (backup!) археологами.
В этом контексте роль дата-инженера обретает почти сакральный смысл: он не просто хранит биты — он строит архивы цивилизации.
Статистика в бикини и другие опасные метафоры
Одна из самых остроумных фраз о данных принадлежит профессору Бизнес-школы Baruch College Аарону Левенштейну:
«Статистика — как бикини. То, что она показывает, интригует. Но то, что скрывает, — жизненно важно»
Этот афоризм работает на нескольких уровнях. На поверхности — шутка. Глубже — предупреждение: данные всегда показывают часть правды, и эта часть специально подобрана. Графики, диаграммы, дашборды — всё это бикини для цифр. Красиво, привлекательно, но за каждой кривой скрывается то, что автор решил не показывать.
Нобелевский лауреат Рональд Коуз был ещё жёстче: «Пытайте данные достаточно долго — и они признаются в чём угодно». Каждый, кто хоть раз подгонял отчёт под нужный вывод, знает: данные не врут, но тот, кто их подаёт, — ещё как способен.
А писатели Чип и Дэн Хит добавили человеческое измерение: «Данные — это всего лишь сводки тысяч историй. Расскажите несколько из этих историй, чтобы данные обрели смысл». Потому что число 27 миллионов — это статистика. А история одного солдата, который не вернулся домой, — это данные, которые бьют в сердце.
Марисса Майер и скорость сбора данных
Бывший CEO Yahoo и вице-президент Google Марисса Майер сформулировала принцип, который знает каждый дата-инженер, но не каждый менеджер:
«Когда дело касается сбора данных — „чем раньше, тем лучше" всегда будет лучшим ответом»
Эта фраза звучит банально — пока не осознаешь, сколько компаний начали собирать данные после того, как они понадобились. Это как установить видеокамеру после ограбления: полезно для самоуспокоения, бесполезно для расследования.
Грегг Талер, эксперт по качеству данных, довёл эту мысль до афоризма, который хочется повесить на стену каждого отдела продаж: «Контактные данные стареют как рыба, а не как вино — со временем становятся только хуже». Кто хоть раз обзванивал базу трёхлетней давности — тот знает: каждый второй номер мёртв, каждый третий человек уволился, а каждый четвёртый не помнит, как попал в вашу CRM.
«Мусор на входе — мусор на выходе»: Вечный закон данных
Если в мире данных есть своя Библия, то её первая заповедь звучит так:
GIGO — Garbage In, Garbage Out
(Мусор на входе — мусор на выходе)
Этот принцип, сформулированный ещё в эпоху первых компьютеров, остаётся нерушимым. Можно построить самую изящную нейросеть, самый быстрый пайплайн, самую красивую визуализацию — но если в основе лежат грязные данные, результат будет таким же грязным, только в красивой обёртке.
Дин Эбботт, эксперт по анализу данных, перефразировал знаменитую цитату статистика Джорджа Бокса: «Все модели ошибочны, но некоторые полезны» — добавив, что самая частая ошибка аналитика — не в модели, а в данных, которые в неё загружены. Модель — это зеркало. Грязные данные — это грязное зеркало. Отражение будет, но не верьте ему.
Донато Диорио выразил это ещё проще: «Без системного подхода к очистке данных плохие данные неизбежны». Или, как говорят русские инженеры: кто не чистит базу — тот ест из неё руками.
Дата-инженер: Герой, которого никто не видит
В мире технологий дата-инженеры занимают уникальную позицию: без них ничего не работает, но о них никто не знает. Фронтенд-разработчик делает красивую кнопку — все хвалят. Дата-инженер строит пайплайн, который обрабатывает миллиарды строк, — и получает тикет с пометкой «данные опять не загрузились».
Дуглас Меррилл, бывший CIO Google, точно подметил: «Big Data — это не про биты, это про таланты». Данные сами по себе ничего не решают. Решает человек, который знает, как их собрать, очистить, трансформировать и подать так, чтобы бизнес принял правильное решение.
Джош Уиллс, известный дата-инженер, дал одно из лучших определений профессии: дата-сайентист — это тот, кто разбирается в статистике лучше любого программиста и программирует лучше любого статистика. Другими словами, это человек, который недостаточно хорош ни в чём по отдельности, но непобедим в комбинации.
А Курт Болакер, инженер и исследователь данных, сказал, пожалуй, самое поэтичное: «Данные, которые любят, обычно выживают». За этой короткой фразой — целая философия: заботься о данных, и они позаботятся о тебе. Забрось их — и они превратятся в цифровое кладбище.
Юмор данных: Когда SQL заходит в бар
Мир данных был бы невыносим без юмора. И у дата-инженеров он — особенный: сухой, логичный и с отложенным панчлайном, как хорошо оптимизированный запрос.
«SQL-запрос заходит в бар, видит две таблицы и спрашивает: „Можно к вам JOIN?"» — классика, понятная каждому, кто хоть раз писал SELECT.
«Мой SQL-запрос и моя девушка похожи: обе говорят, что я никогда не делаю COMMIT» — трагедия отношений и транзакций в одном предложении.
«В чём разница между хорошим DBA и плохим? Хороший делает бэкап ДО того, как всё сломается» — мудрость, оплаченная бессонными ночами.
«NULL — это Чак Норрис баз данных: ничто не может быть с ним сравнено» — техническая шутка, которая работает, потому что в SQL выражение NULL = NULL действительно возвращает FALSE.
И, пожалуй, самый жизненный: «Степень нормализации базы данных обратно пропорциональна степени нормальности её администратора». Кто работал с DBA — тот не смеётся. Тот кивает.
Данные и власть: Опасная любовь
Не все цитаты о данных оптимистичны. Некоторые — предупреждения.
Эдвард Сноуден продемонстрировал миру, что данные — это не только инструмент бизнеса, но и оружие контроля. Джулиан Ассанж заметил, что каждый раз, когда вы добавляете друзей в Facebook, вы бесплатно работаете на американские спецслужбы, пополняя их базу данных. Можно спорить с формулировкой — но не с логикой.
Вернор Виндж, профессор математики и писатель-фантаст, ещё в начале века предупреждал: «У нас не дефицит данных — у нас их потоп». Мы тонем в информации и задыхаемся от нехватки смысла. Данных всё больше — понимания всё меньше.
А Питер Диамандис, основатель X-Prize Foundation, сформулировал это нейробиологически: «Каждую секунду наши органы чувств получают гораздо больше данных, чем наш мозг способен обработать». Мы — биологические базы данных с ограниченным процессором. И если даже наш мозг не справляется — что говорить о серверах?
Великие формулы данных: Афоризмы на все времена
Подведём итог — собрав самые ёмкие высказывания, которые стоит запомнить каждому, кто работает с данными или просто живёт в мире, который ими управляется:
О ценности данных:
Данные — драгоценность, и они переживут системы, которые их хранят. (Тим Бернерс-Ли)
О доверии к данным:
Мы верим в Бога. Все остальные пусть принесут данные. (У. Эдвардс Деминг)
О скорости:
Контактные данные стареют как рыба, а не как вино. (Грегг Талер)
О чистоте:
Без системного подхода к очистке данных плохие данные неизбежны. (Донато Диорио)
О смысле:
Данные — это сводки тысяч историй. Расскажите несколько, чтобы цифры ожили. (Чип и Дэн Хит)
О лжи:
Пытайте данные достаточно долго — они признаются в чём угодно. (Рональд Коуз)
О любви:
Данные, которые любят, обычно выживают. (Курт Болакер)
О слепоте:
Без больших данных компании — как олени на скоростном шоссе: слепые и глухие. (Джеффри Мур)
Каждая из этих фраз — не просто красивые слова. Это операционная система мышления для эпохи, в которой данные стали воздухом: мы их не замечаем, пока они есть, — и задыхаемся, когда их нет.
Мир данных бесконечен, как и количество историй, которые они могут рассказать. Но чтобы данные заговорили — нужен человек, который задаст правильный вопрос. Возможно, этот человек — вы.


