Hadoop Distributed File System (HDFS)

Hadoop Distributed File System (HDFS) – это файловая система, предназначенная для хранения очень больших файлов с возможностью потокового доступа к данным, работающая на кластерах из произвольного аппаратного обеспечения.

Файлы в HDFS разбиваются на блоки, если размер файла превышает размер блока. По умолчанию размер блока в HDFS может составлять 64, 128 или 256 Мбайт, и каждый блок реплицируется в трех экземплярах.

Кластер HDFS состоит из управляющего узла (NameNode) и узлов хранения данных (DataNode). NameNode управляет пространством имен файловой системы (дерево файлов и мета-данные файлов и каталогов).

При чтении файла из HDFS клиент получает адреса расположения блоков от управляющего узла и самостоятельно осуществляет последовательное чтение с узлов блоков файла. При этом для каждого блока выбирается «ближайший узел».

Благодаря тому, что клиент извлекает данные с узлов данных напрямую HDFS может масштабироваться до большого количества конкурентных клиентов, т.к. трафик распределен между узлами данных в кластере.

Добавить комментарий

Заполните поля или щелкните по значку, чтобы оставить свой комментарий:

Логотип WordPress.com

Для комментария используется ваша учётная запись WordPress.com. Выход / Изменить )

Фотография Twitter

Для комментария используется ваша учётная запись Twitter. Выход / Изменить )

Фотография Facebook

Для комментария используется ваша учётная запись Facebook. Выход / Изменить )

Google+ photo

Для комментария используется ваша учётная запись Google+. Выход / Изменить )

Connecting to %s

%d такие блоггеры, как: