Beste praksis for distribusjon av Hadoop Server på CentOS/RHEL 7 - Del 1


I denne serien med artikler skal vi dekke hele Cloudera Hadoop Cluster Building-bygningen med anbefalte fremgangsmåter fra leverandører og industri.

OS-installasjon og OS-nivå Forutsetninger er de første trinnene for å bygge en Hadoop-klynge. Hadoop kan kjøre på ulike varianter av Linux-plattformen: CentOS, RedHat, Ubuntu, Debian, SUSE etc., I sanntidsproduksjon er de fleste Hadoop-klyngene bygget på toppen av RHEL/CentOS, vi vil bruke CentOS 7 for demonstrasjon i denne serien med opplæringsprogrammer.

I en organisasjon kan OS-installasjon gjøres ved hjelp av kickstart. Hvis det er en 3 til 4 node-klynge, er manuell installasjon mulig, men hvis vi bygger en stor klynge med mer enn 10 noder, er det kjedelig å installere OS én etter én. I dette scenariet kommer Kickstart-metoden inn i bildet, vi kan fortsette med masseinstallasjonen ved hjelp av kickstart.

Å oppnå god ytelse fra et Hadoop-miljø er avhengig av klargjøring av riktig maskinvare og programvare. Så å bygge en produksjons-Hadoop-klynge innebærer mye vurdering angående maskinvare og programvare.

I denne artikkelen vil vi gå gjennom ulike benchmarks om OS-installasjon og noen beste fremgangsmåter for å distribuere Cloudera Hadoop Cluster Server på CentOS/RHEL 7.

Viktig vurdering og beste praksis for distribusjon av Hadoop Server

Følgende er de beste fremgangsmåtene for å sette opp distribusjon av Cloudera Hadoop Cluster Server på CentOS/RHEL 7.

  • Hadoop-servere krever ikke bedriftsstandardservere for å bygge en klynge, det krever råvaremaskinvare.
  • I produksjonsklyngen anbefales det å ha 8 til 12 datadisker. I henhold til arten av arbeidsmengden må vi ta stilling til dette. Hvis klyngen er for dataintensive applikasjoner, er det beste praksis å ha 4 til 6 stasjoner for å unngå I/O-problemer.
  • Datastasjoner bør partisjoneres individuelt, for eksempel – fra /data01 til /data10.
  • RAID-konfigurasjon anbefales ikke for arbeidernoder, fordi Hadoop selv gir feiltoleranse på data ved å replikere blokkene til 3 som standard. Så JBOD er best for arbeidernoder.
  • For masterservere er RAID 1 den beste praksisen.
  • Standard filsystem på CentOS/RHEL 7.x er XFS. Hadoop støtter XFS, ext3 og ext4. Det anbefalte filsystemet er ext3 da det er testet for god ytelse.
  • Alle serverne bør ha samme OS-versjon, minst samme mindre versjon.
  • Det er best praksis å ha homogen maskinvare (alle arbeidernoder bør ha samme maskinvarekarakteristikk (RAM, diskplass og kjerne osv).
  • I henhold til klyngearbeidsbelastningen (balansert arbeidsbelastning, beregningsintensiv, I/O-intensiv) og størrelse, vil ressursplanleggingen (RAM, CPU) per server variere.

Finn eksemplet nedenfor for diskpartisjonering av servere med 24TB lagring.

Installerer CentOS 7 for Hadoop Server Deployment

Ting du trenger å vite før du installerer CentOS 7 server for Hadoop Server.

  • Minimal installasjon er nok for Hadoop-servere (arbeidernoder), i noen tilfeller kan GUI kun installeres for Master-servere eller Management-servere der vi kan bruke nettlesere for web-UI-er for administrasjonsverktøy.
  • Konfigurering av nettverk, vertsnavn og andre OS-relaterte innstillinger kan gjøres etter OS-installasjon.
  • I sanntid vil serverleverandører ha sin egen konsoll for å samhandle og administrere serverne, for eksempel – Dell-servere har iDRAC som er en enhet innebygd med servere. Ved å bruke det iDRAC-grensesnittet kan vi installere OS med et OS-bilde i vårt lokale system.

I denne artikkelen har vi installert OS (CentOS 7) i VMware virtuell maskin. Her vil vi ikke ha flere disker for å utføre partisjoner. CentOS ligner på RHEL (samme funksjonalitet), så vi vil se trinnene for å installere CentOS.

1. Begynn med å laste ned CentOS 7.x ISO-bildet i ditt lokale Windows-system og velg det mens du starter opp den virtuelle maskinen. Velg 'Installer CentOS 7' som vist.

2. Velg Språk, standard vil være engelsk, og klikk fortsett.

3. Programvarevalg – Velg 'Minimal installasjon' og klikk på 'Ferdig'.

4. Angi root-passordet som det vil be oss om å angi.

5. Installasjonsdestinasjon – Dette er det viktige trinnet for å være forsiktig. Vi må velge disken der OS må installeres, dedikert disk bør velges for OS. Klikk på 'Installasjonsdestinasjon' og velg disken, i sanntid vil flere disker være der, vi må velge, foretrukket 'sda'.

6. Andre lagringsalternativer – Velg det andre alternativet (jeg vil konfigurere partisjonering) for å konfigurere OS-relatert partisjonering som /var, /var/log, /home, /tmp, /opt, /swap.

7. Start installasjonen når du er ferdig.

8. Når installasjonen er fullført, start serveren på nytt.

9. Logg på serveren og angi vertsnavnet.

# hostnamectl status
# hostnamectl set-hostname tecmint
# hostnamectl status

I denne artikkelen har vi gått gjennom OS-installasjonstrinn og beste praksis for filsystempartisjonering. Disse er alle generelle retningslinjer, i henhold til arten av arbeidsbelastningen, må vi kanskje konsentrere oss om flere nyanser for å oppnå best mulig ytelse for klyngen. Klyngeplanlegging er kunst for Hadoop-administratoren. Vi vil ha dypdykk i OS-nivå forutsetninger og sikkerhetsherding i neste artikkel.