Sadržaj:

Mogu li pokrenuti Python na Hadoop-u?
Mogu li pokrenuti Python na Hadoop-u?

Video: Mogu li pokrenuti Python na Hadoop-u?

Video: Mogu li pokrenuti Python na Hadoop-u?
Video: Data Science with Python! Analyzing File Types from Avro to Stata 2024, Svibanj
Anonim

Uz izbor između programskih jezika kao što su Java, Scala i Piton za Hadoop ekosustav, većina programera koristi Piton zbog svojih pomoćnih knjižnica za zadatke analize podataka. Hadoop streaming omogućuje korisniku stvaranje i izvršiti Preslikavanje/smanjenje poslova bilo kojom skriptom ili izvršnom datotekom kao maperom ili/i reduktorom.

Slično, postavlja se pitanje kako se Python povezuje s Hadoop-om?

Povezivanje Hadoop HDFS-a s Pythonom

  1. Korak 1: Provjerite radi li Hadoop HDFS ispravno. Otvorite Terminal/Command Prompt, provjerite radi li HDFS pomoću sljedećih naredbi: start-dfs.sh.
  2. Korak 2: Instalirajte biblioteku libhdfs3.
  3. Korak 3: Instalirajte biblioteku hdfs3.
  4. Korak 4: Provjerite je li veza s HDFS-om uspješna.

Slično, što je Hadoop u Pythonu? Piton je potpuni programski jezik opće namjene koji se može koristiti za gotovo sve u svijetu programiranja. Hadoop je okvir za velike podatke napisan u Javi za rad s ogromnim količinama podataka. Postoje brojni online instituti koji Hadoop s Piton tečajevi kao što su: Analytixlabs. Edureka.

Potom se postavlja pitanje kako pokrenuti program Python MapReduce u Hadoopu?

Pisanje Hadoop MapReduce programa u Pythonu

  1. Motivacija.
  2. Ono što želimo učiniti.
  3. Preduvjeti.
  4. Python MapReduce kod. Korak karte: mapper.py. Korak smanjivanja: reduktor.py.
  5. Pokretanje Python koda na Hadoop-u. Preuzmite primjer ulaznih podataka. Kopirajte lokalne primjere podataka u HDFS.
  6. Poboljšani kod Mapper i Reducer: korištenje Python iteratora i generatora. maper.py. reduktor.py.

Što je Hadoop Streaming jar?

Hadoop distribucija pruža Java uslužni program tzv Hadoop strujanje . Pakiran je u a staklenka datoteka. S Hadoop strujanje , možemo kreirati i pokrenuti Map Reduce poslove s izvršnom skriptom. Hadoop strujanje je uslužni program koji dolazi s Hadoop distribucija. Može se koristiti za izvršavanje programa za analizu velikih podataka.

Preporučeni: