Hvordan sette opp høy tilgjengelighet for Namenode - del 5


Hadoop har to kjernekomponenter som er HDFS og YARN. HDFS er for lagring av data, YARN er for behandling av data. HDFS er Hadoop Distributed File System, det har Namenode som Master Service og Datanode som Slave Service.

Namenode er den kritiske komponenten i Hadoop som lagrer metadataene til data som er lagret i HDFS. Hvis Namenode går ned, vil ikke hele klyngen være tilgjengelig, det er single point of failure (SPOF). Så, produksjonsmiljøet vil ha Namenode High Availability for å unngå produksjonsstans hvis en Namenode går ned på grunn av ulike årsaker som maskinkrasj, planlagt vedlikeholdsaktivitet, etc.

Hadoop 2.x gir mulighet der vi kan ha to Namenode, en vil være Active Namenode og en annen vil være Standby Namenode.

  • Active Namenode – Den administrerer alle klientoperasjoner.
  • Standby Namenode – Den er redundant for Active Namenode. Hvis Active NN går ned, vil Standby NN ta alt ansvaret til Active NN.

Aktivering av Namenode High Availability krever Zookeeper som er obligatorisk for automatisk failover. ZKFC (Zookeeper Failover Controller) er en Zookeeper-klient som brukes til å opprettholde tilstanden til Namenode.

  • Beste fremgangsmåter for distribusjon av Hadoop Server på CentOS/RHEL 7 – Del 1
  • Konfigurering av Hadoop-forutsetninger og sikkerhetsherding – del 2
  • Hvordan installere og konfigurere Cloudera Manager på CentOS/RHEL 7 – Del 3
  • Hvordan installere CDH og konfigurere tjenesteplasseringer på CentOS/RHEL 7 – Del 4

I denne artikkelen skal vi aktivere Namenode High Availability i Cloudera Manager.

Trinn 1: Installasjon av Zookeeper

1. Logg på Cloudera Manager.

http://Your-IP:7180/cmf/home

2. I handlingsledeteksten Cluster (tecmint), velg \Legg til tjeneste.

3. Velg tjenesten Zookeeper.

4. Velg serverne der vi skal ha Zookeeper installert.

5. Vi kommer til å ha 3 Zookeepers for å danne Zookeeper Quorum. Velg serverne som nevnt nedenfor.

6. Konfigurer Zookeeper-egenskapene, her har vi standardegenskapene. I sanntid må du ha separate kataloger/monteringspunkter for lagring av Zookeeper-data. I del-1 har vi forklart om lagringskonfigurasjon for hver tjeneste. Klikk fortsett for å fortsette.

7. Installasjonen vil begynne, når Zookeeper er installert, startes den. Du kan se bakgrunnsoperasjonene her.

8. Etter vellykket gjennomføring av trinnet ovenfor, vil status være Fullført.

9. Nå er Zookeeper installert og konfigurert. Klikk på Fullfør.

10. Du kan se Zookeeper-tjenesten på Cloudera Manager Dashboard.

Trinn 2: Aktiverer Namenode High Availability

11. Gå til Cloudera Manager –> HDFS –> Handlinger –> Aktiver høy tilgjengelighet.

12. Skriv inn navnetjenestenavnet som \navnetjeneste1 – Dette er et felles navneområde for både aktiv og standby-navnenoden.

13. Velg den andre navnenoden der vi skal ha standby-navnenoden.

14. Her velger vi master2.linux-console.net for standby Namenode.

15. Velg Journalnodene, dette er obligatoriske tjenester for å synkronisere Active og Standby Namenode.

16. Vi lager Quorum Journal ved å plassere Journal-noden i 3 servere som nevnt nedenfor. Velg 3 servere og klikk OK.

17. Klikk Fortsett for å fortsette.

18. Angi katalogbanen til Journal Node. Bare vi trenger å nevne banen mens du installerer denne katalogen vil automatisk bli opprettet av tjenesten selv. Vi nevner som ‘/jn’. Klikk Fortsett for å fortsette.

19. Det vil begynne å aktivere High Availability.

20. Når alle bakgrunnsprosessene er fullført, får vi «Ferdig»-status.

21. Til slutt vil vi få et varsel «High Tilgjengelighet aktivert med suksess». Klikk Fullfør.

22. Bekreft den aktive og standby-navnenoden ved å gå til Cloudera Manager –> HDFS –> Forekomster.

23. Her kan du ha to navnenoder, en vil være i Aktiv-tilstand og en annen vil være i Standby-tilstand.

I denne artikkelen har vi gått gjennom trinn-for-trinn-prosessen for å aktivere Namenode High Availability. Det anbefales sterkt å ha Namenode High Availability i alle klyngene i et sanntidsmiljø. Vennligst legg ut tvilen din hvis du møter noen feil mens du gjør denne prosessen. Vi vil se Resource Manager High Availability i neste artikkel.