Big Data @ home avec Cloudera

Répondre
chour@mih-fr
Messages : 732
Inscription : ven. 12 janv. 2018 17:44

Big Data @ home avec Cloudera

Message par chour@mih-fr »

:hello:

je souhaite me monter une infra Big Data @ home, d'une part pour m'auto-former sur la partie technique/architecture mais aussi parce que ça pourrait me servir pour le taff, voire plus.

Côté hardware, j'ai un Proliant 370G5 avec 8 cpu, 32Go de ram, un raid 5 de 72Go SAS en 15K, et mon NAS sur lequel je vais créer un ou plusieurs points de montage iSCSI.

Côté software, j'ai installé XenServer 6.5 sur le Proliant et je comptais monter plusieurs VM à base de CentOS 7.1
Pour le "Big Data" en lui-même, je suis parti sur la distrib Cloudera CDH 5.5.1 (qui package Apache Hadoop) et j'aimerais par la suite mettre en oeuvre le trio "Elastic Search/LogStash/Kibana".

Pour la partie Cloudera, je vais me baser sur ces tutoriels :
http://mbaron.developpez.com/tutoriels/ ... dera-cdh5/
http://mbaron.developpez.com/tutoriels/ ... dera-cdh5/

Pour le trio ELK, j'ai trouvé ceci : https://www.digitalocean.com/community/ ... n-centos-7

Mais pour la partie Xen j'ai moins d'expérience. J'ai acquis un T400 ici pour installer XenCenter et voir comment tout cela fonctionne. Si vous avez des tutos sous le coude pour créer des VM avec Xen et gérer les partages disques (je pensais créer un point de montage sur mon NAS en iSCSI, afin que toutes les VM puissent taper dessus, ça parait cohérent ce que je raconte ?).


Mes premières interrogations tournent pour le moment autour de l'unique machine que j'ai à dispo pour travailler : ne vraudrait-il pas mieux installer directement un Linux dessus et ainsi profiter de la puissance directement, ou au contraire monter 6 noeuds avec 1 CPU et 4Go de ram par exemple ?


:jap:

Charles
chour@mih-fr
Messages : 732
Inscription : ven. 12 janv. 2018 17:44

Big Data @ home avec Cloudera

Message par chour@mih-fr »

Premier élément de réponse que je m'apporte : je vais conserver le ELK + l'agent Filebeat, soit en tout 4 VM.
Avatar de l’utilisateur
Zedoune
Messages : 15343
Inscription : ven. 12 janv. 2018 17:44

Big Data @ home avec Cloudera

Message par Zedoune »

Salut

Si tu as besoin de puissance, ne virtualises rien, utilises un seul système sur l'hôte.

Si tu veux apprendre à faire du "big data" ou du "cluster nosql" vaut mieux faire des VM par contre, mais tu dégrades énormément les performances
Avatar de l’utilisateur
poulpito
Messages : 12402
Inscription : ven. 12 janv. 2018 17:44
Localisation : Grenoble

Big Data @ home avec Cloudera

Message par poulpito »

oui mais ca permet de tester :)
pour Xen ca marche sans soucis et c'est super simple à prendre en main
si tu veux rester light tu gère uniquement via le client win/linux xencenter :)

le seul point compliqué de xen c'est à mon sens la gestion réseau (hors fonction de base ou l'interface admin est partagée au vm) tout le reste est équivalent en accessibilité à du vmware


(xen orchestra ou autre c'est trop lourd pour ton utilisation)
Avatar de l’utilisateur
Zedoune
Messages : 15343
Inscription : ven. 12 janv. 2018 17:44

Big Data @ home avec Cloudera

Message par Zedoune »

oui mais ca permet de tester :)
pour Xen ca marche sans soucis et c'est super simple à prendre en main
si tu veux rester light tu gère uniquement via le client win/linux xencenter :)

le seul point compliqué de xen c'est à mon sens la gestion réseau (hors fonction de base ou l'interface admin est partagée au vm) tout le reste est équivalent en accessibilité à du vmware


(xen orchestra ou autre c'est trop lourd pour ton utilisation)

Je répondais à son assertion :P en précisant bien que pour apprendre c'était le mieux de faire des petites VM :P
ne vraudrait-il pas mieux installer directement un Linux dessus et ainsi profiter de la puissance directement, ou au contraire monter 6 noeuds avec 1 CPU et 4Go de ram par exemple ?
Avatar de l’utilisateur
poulpito
Messages : 12402
Inscription : ven. 12 janv. 2018 17:44
Localisation : Grenoble

Big Data @ home avec Cloudera

Message par poulpito »

:D
chour@mih-fr
Messages : 732
Inscription : ven. 12 janv. 2018 17:44

Big Data @ home avec Cloudera

Message par chour@mih-fr »

:hello:
merci pour vos réponses, effectivement mon but #1 c'est bien de me former à monter une petite infra et à toucher à tout ce qui peut graviter autour du Big Data.

Je vais mettre de côté la couche Hadoop via Cloudera dans un premier temps, je vais déjà me concentrer sur ELK.

Bon dimanche !
Avatar de l’utilisateur
augur1
Messages : 13167
Inscription : ven. 12 janv. 2018 17:44
Localisation : où tout est neuf et tout est sauvage
Contact :

Big Data @ home avec Cloudera

Message par augur1 »

A propos de ELK
-> https://wooster.checkmy.ws/2015/07/elk- ... -solution/

Concernant le stockage, as tu pensé à du Lustre + ZFS ?
chour@mih-fr
Messages : 732
Inscription : ven. 12 janv. 2018 17:44

Big Data @ home avec Cloudera

Message par chour@mih-fr »

Merci pour le lien augur ;) Pour ma part, nous avons du Splunk en ce moment en test, mais son déploiement est fastidieux sur notre parc, non pas à cause de sa complexité, mais plutôt à cause de l'ombre qu'IBM peut faire dans notre SI :(

Je "connais" ZFS pour avoir lu ici le topic fut un temps. Cependant, non je ne connais Lustre couplé à du ZFS. Je vois vaguement ce que tu souhaites me faire dire : du scalable fs en zfs ? Grosso modo c'est du raid soft (désolé je suis une quiche en système de stockage) ?

Avatar de l’utilisateur
augur1
Messages : 13167
Inscription : ven. 12 janv. 2018 17:44
Localisation : où tout est neuf et tout est sauvage
Contact :

Big Data @ home avec Cloudera

Message par augur1 »

Vite fait par rapport à ce que que du as déjà pu lire sur le Big Data : Lustre + ZFS à la place du HDFS.

ZFS est en effet du raid soft, puissant.
gizmo78
Messages : 20534
Inscription : ven. 12 janv. 2018 17:44

Big Data @ home avec Cloudera

Message par gizmo78 »

HDFS c'est du fs distribué, donc ca dépend vraiment de l'infra

MystX en parle la:
http://forum.hardware.fr/hfr/OSAlternat ... 8_9984.htm
chour@mih-fr
Messages : 732
Inscription : ven. 12 janv. 2018 17:44

Big Data @ home avec Cloudera

Message par chour@mih-fr »

ça devient "touchy" là ... On va commencer gentillement d'abord ;)
J'ai une question sur les LUN et la manière de les implémenter dans XenServer. Je ne veux pas créer mes VM sur le NAS, mais utiliser l'espace de stockage plus important pour créer un vg (genre vg_data par exemple) sur chacune de mes VM.
Concrètement, comment ça va se traduire ? Je vais créer un "New Storage Repo" et dire aux VM de taper dedans ? Et côté VM je créé mon vg avec cet espace visible ?
Avatar de l’utilisateur
biour
Messages : 24386
Inscription : ven. 12 janv. 2018 17:44

Big Data @ home avec Cloudera

Message par biour »

http://www.lesnumeriques.com/imprimante ... 48795.html

Woot !! 20€ la lazer
40€ en lazer multifonction
Image
Avatar de l’utilisateur
poulpito
Messages : 12402
Inscription : ven. 12 janv. 2018 17:44
Localisation : Grenoble

Big Data @ home avec Cloudera

Message par poulpito »

et ca fait quoi dans big data @ home ^^ biour stop picole
Avatar de l’utilisateur
biour
Messages : 24386
Inscription : ven. 12 janv. 2018 17:44

Big Data @ home avec Cloudera

Message par biour »

bordel en effet ^^
Image
jsonline
Messages : 293
Inscription : ven. 12 janv. 2018 17:44

Big Data @ home avec Cloudera

Message par jsonline »

J'ai les bases du big data mais encore jamais fait en vrai.

Je trouve le sujet intéressant.
Avatar de l’utilisateur
augur1
Messages : 13167
Inscription : ven. 12 janv. 2018 17:44
Localisation : où tout est neuf et tout est sauvage
Contact :

Big Data @ home avec Cloudera

Message par augur1 »

Je trouve le sujet intéressant.
+1

... pour commencer, voici un début : http://www.ina.fr/video/CAA7800628501 :bounce:
chour@mih-fr
Messages : 732
Inscription : ven. 12 janv. 2018 17:44

Big Data @ home avec Cloudera

Message par chour@mih-fr »

Hello

je n'ai pas laissé tomber, bien au contraire. J'ai pu monter au taff sur 2 petites VM un stack ELK.
J'alimente le cluster via un log forwarder "filebeat" vers logstash qui de décortique mes logs puis qui les envoies vers le moteur elastic pour l'indexation.
Seul bémol, ça tient pas la charge en nombre de fichiers "ouvrables" : logstash sature à 20'000 fichiers (limite du produit) et filebeat c'est carrément moins. Donc si on veut faire du chargement à posteriori faut prendre son mal en patience (+75000 log par mois d'un coté, et potentiellement 7000 de l'autre).

Sinon c'est bien sympa comme produit, c'est très flexible, ça peut tourner sur de toute petites bécanes (1 cpu 4Go de ram), mais c'est plutôt limité coté support os, AIX pas supporté, et RHEL 6 mini. Du coup je me mets 50% du parc à dos, solution non recevable. Splunk est en cours de déploiement et je devrais travailler dessus. Autre bémol, la conf décentralisée des logstash/filebeat. Sur un parc conséquent c'est impossible d'avoir une conf' homogène, enfin chez nous en tout cas.

Sinon c'est pas du BigData mon bazar, juste de l'analyse de log. Sur Splunk, il y aura un connecteur vers Hadoop pour déverser les données vieilles +1 mois vers le big data).

Pour terminer, j'ai mis aller 5J/H en partant de 0 (mais vraiment de 0) pour mettre en place l'infa, les filter logstash, les index et les bons mappings dans elastic, les log forwarder et la conf qui va bien, et produire mes premiers dashboard. Pas de dashboard "cross-index" pour le moment, je dois me pencher sur le sujet .
Répondre