Архив метки: hadoop

hadoop

Hadoop в действии — Чак Лэм

Специфические задачи требуют специфических инструментов, и обработка по-настоящему больших массивов данных может оказаться непосильной задачей для традиционных реляционных баз данных, основанных на SQL. Тем, кто хочет ознакомиться с кластерной обработкой данных, на помощь придет Apache Hadoop, о котором и расскажет эта книга.

С ростом объёмов обрабатываемых данных традиционные SQL-ориентированные СУБД постепенно начинают «сдавать позиции», и наступает момент, когда разработчику информационной системы приходится переходить на качественно иной уровень разработки. Там, где не справляется один, пусть даже и многопроцессорный сервер, в действие вступают «кластерные» системы. Одним из инструментов работы с большими объёмами данных на распределённом кластере является Apache Hadoop, некоммерческий проект фонда Apache Software Foundation, который может работать на кластерах, состоящих из сотен и даже тысяч компьютеров.

Основная область применения этого программного продукта — статистический анализ. Справочное пособие «Hadoop в действии» Чака Лэма познакомит читателя с со «стилем MapReduce», то есть стилем программирования, когда задача решается путём распараллеливания статистического анализа или сложного вычисления на множество одновременно выполняющихся процессов с последующей обработкой результатов каждого «потока». Ознакомив читателя с простыми примерами параллельных вычислений, Чак Лэм переходит к практическому применению Hadoop, показывая, как использовать эту систему для сложного анализа данных. От читателя потребуется знание основ языка Java и знакомство с математической статистикой, без которой будет сложно понять суть более сложных примеров, приведённых в книге.