Koji je problem s malim datotekama u Hadoopu?
Koji je problem s malim datotekama u Hadoopu?
Anonim

1) Problem male datoteke u HDFS : Spremanje puno male datoteke koji su izuzetno manji nego se veličina bloka ne može učinkovito rukovati HDFS . Čitanje do kraja male datoteke uključuje puno traženja i puno skakanja između podatkovnog čvora do podatkovnog čvora, što je zauzvrat neučinkovita obrada podataka.

Osim ovoga, koje datoteke rješavaju male probleme s datotekama u Hadoopu?

1) HAR ( Hadoop arhiva) Datoteke je uveden u rješavanje problema s malim datotekama . HAR je uveo sloj na vrhu HDFS , koji pružaju sučelje za datoteka pristupanje. Korištenje Hadoop naredba arhiva, HAR datoteke stvoreni su, koji se izvodi a MapReduce posao pakirati datoteke se arhivira u manji broj HDFS datoteke.

Nadalje, mogu li više datoteka u HDFS koristiti različite veličine blokova? Zadano veličina od blok je 64 MB. vas limenka promijenite ga ovisno o vašim zahtjevima. Dolazim do vašeg pitanja da vi može stvoriti više datoteka variranjem veličine blokova ali u stvarnom vremenu ovo htjeti ne favoriziraju proizvodnju.

Štoviše, zašto HDFS ne obrađuje optimalno male datoteke?

Problemi sa male datoteke i HDFS Svaki datoteka , imenik i blok u HDFS je predstavljen kao objekt u memoriji imenode, od kojih svaki zauzima 150 bajtova, kao pravilo. Nadalje, HDFS nije usmjerena na učinkovit pristup male datoteke : to je prvenstveno dizajniran za streaming pristup velikim datoteke.

Zašto je Hadoop spor?

Usporiti Brzina obrade Ovaj disk traži zahtijeva vrijeme i time čini cijeli proces vrlo usporiti . Ako Hadoop obrađuje podatke u malom volumenu, vrlo je usporiti usporedno. Idealan je za velike skupove podataka. Kao Hadoop ima motor za grupnu obradu u jezgri, njegova brzina za obradu u stvarnom vremenu je manja.

Preporučeni: