CyrusT Ответов: 2

Как Hadoop Обрабатывает Большие Данные?


предположим,что пользователь хочет запустить задание в кластере hadoop с первичными данными размером 10 петабайт.как и когда клиентский узел разбивает эти данные на блоки?
Я имею в виду,что поскольку клиент имеет ограниченные ресурсы,пользователь не может загрузить такой большой файл непосредственно на него.он должен скопировать его по частям и ждать, пока клиент сохранит эти части в виде блоков, а затем отправить другие части.
но такая сегментация не упоминается ни в одном из документов, которые я читал.

Как осуществляется этот процесс?

2 Ответов

Рейтинг:
2

shailesh91082

Может быть, эта ссылка может вам помочь
http://www.youtube.com/watch?v=ziqx2hJY8Hg[^]


Рейтинг:
0

Swab.Jat

хорошо, вам нужно различать
1. построение набора данных объемом 1 петабайт
Обычно вы не создаете одну базу данных размером 1 петабайт, импортируя файл размером 1 ПБ, обычно база данных PB создается с течением времени, по одному маленькому кусочку за раз

2. запуск анализа набора данных объемом 1 петабайт
Hadoop HDFS (Hadoop Distributed File System) - например, каждый ведомый хранит 1 ТБ из общего объема 1 ПБ, и вы хотите найти Max(x) из этого набора данных 10PB, распределенного по 1000 ведомым устройствам (1 ТБ/1PB). Hadoop делает это, запустив максимальное вычисление на каждом ведомом устройстве (каждое на отдельной машине). Клиент может выполнить отдельное "максимальное" вычисление более десяти результатов (максимум 1 ТБ) от 1000 ведомых устройств. Таким образом, вам никогда не нужно будет собирать весь 1PB в памяти.

Это делает Hadoop очень/линейно масштабируемым.


CPallini

5.