Big Data @ home avec Cloudera

Message par **chour@mih-fr** » sam. 2 janv. 2016 19:16

je souhaite me monter une infra Big Data @ home, d'une part pour m'auto-former sur la partie technique/architecture mais aussi parce que ça pourrait me servir pour le taff, voire plus.

Côté hardware, j'ai un Proliant 370G5 avec 8 cpu, 32Go de ram, un raid 5 de 72Go SAS en 15K, et mon NAS sur lequel je vais créer un ou plusieurs points de montage iSCSI.

Côté software, j'ai installé XenServer 6.5 sur le Proliant et je comptais monter plusieurs VM à base de CentOS 7.1
Pour le "Big Data" en lui-même, je suis parti sur la distrib Cloudera CDH 5.5.1 (qui package Apache Hadoop) et j'aimerais par la suite mettre en oeuvre le trio "Elastic Search/LogStash/Kibana".

Pour la partie Cloudera, je vais me baser sur ces tutoriels :
http://mbaron.developpez.com/tutoriels/ ... dera-cdh5/
http://mbaron.developpez.com/tutoriels/ ... dera-cdh5/

Pour le trio ELK, j'ai trouvé ceci : https://www.digitalocean.com/community/ ... n-centos-7

Mais pour la partie Xen j'ai moins d'expérience. J'ai acquis un T400 ici pour installer XenCenter et voir comment tout cela fonctionne. Si vous avez des tutos sous le coude pour créer des VM avec Xen et gérer les partages disques (je pensais créer un point de montage sur mon NAS en iSCSI, afin que toutes les VM puissent taper dessus, ça parait cohérent ce que je raconte ?).

Mes premières interrogations tournent pour le moment autour de l'unique machine que j'ai à dispo pour travailler : ne vraudrait-il pas mieux installer directement un Linux dessus et ainsi profiter de la puissance directement, ou au contraire monter 6 noeuds avec 1 CPU et 4Go de ram par exemple ?

Charles

Message par **chour@mih-fr** » sam. 2 janv. 2016 22:06

Premier élément de réponse que je m'apporte : je vais conserver le ELK + l'agent Filebeat, soit en tout 4 VM.

Message par **Zedoune** » sam. 2 janv. 2016 22:41

Salut

Si tu as besoin de puissance, ne virtualises rien, utilises un seul système sur l'hôte.

Si tu veux apprendre à faire du "big data" ou du "cluster nosql" vaut mieux faire des VM par contre, mais tu dégrades énormément les performances

Message par **poulpito** » sam. 2 janv. 2016 22:53

oui mais ca permet de tester

pour Xen ca marche sans soucis et c'est super simple à prendre en main
si tu veux rester light tu gère uniquement via le client win/linux xencenter

le seul point compliqué de xen c'est à mon sens la gestion réseau (hors fonction de base ou l'interface admin est partagée au vm) tout le reste est équivalent en accessibilité à du vmware

(xen orchestra ou autre c'est trop lourd pour ton utilisation)

Message par **Zedoune** » sam. 2 janv. 2016 22:55

oui mais ca permet de tester
pour Xen ca marche sans soucis et c'est super simple à prendre en main
si tu veux rester light tu gère uniquement via le client win/linux xencenter

le seul point compliqué de xen c'est à mon sens la gestion réseau (hors fonction de base ou l'interface admin est partagée au vm) tout le reste est équivalent en accessibilité à du vmware

(xen orchestra ou autre c'est trop lourd pour ton utilisation)

Je répondais à son assertion

en précisant bien que pour apprendre c'était le mieux de faire des petites VM

ne vraudrait-il pas mieux installer directement un Linux dessus et ainsi profiter de la puissance directement, ou au contraire monter 6 noeuds avec 1 CPU et 4Go de ram par exemple ?

Message par **poulpito** » sam. 2 janv. 2016 23:04

Message par **chour@mih-fr** » dim. 3 janv. 2016 09:31

merci pour vos réponses, effectivement mon but #1 c'est bien de me former à monter une petite infra et à toucher à tout ce qui peut graviter autour du Big Data.

Je vais mettre de côté la couche Hadoop via Cloudera dans un premier temps, je vais déjà me concentrer sur ELK.

Bon dimanche !

Message par **augur1** » dim. 3 janv. 2016 12:12

A propos de ELK
-> https://wooster.checkmy.ws/2015/07/elk- ... -solution/

Concernant le stockage, as tu pensé à du Lustre + ZFS ?

Message par **chour@mih-fr** » dim. 3 janv. 2016 22:44

Merci pour le lien augur

Pour ma part, nous avons du Splunk en ce moment en test, mais son déploiement est fastidieux sur notre parc, non pas à cause de sa complexité, mais plutôt à cause de l'ombre qu'IBM peut faire dans notre SI

Je "connais" ZFS pour avoir lu ici le topic fut un temps. Cependant, non je ne connais Lustre couplé à du ZFS. Je vois vaguement ce que tu souhaites me faire dire : du scalable fs en zfs ? Grosso modo c'est du raid soft (désolé je suis une quiche en système de stockage) ?

Message par **augur1** » lun. 4 janv. 2016 09:37

Vite fait par rapport à ce que que du as déjà pu lire sur le Big Data : Lustre + ZFS à la place du HDFS.

ZFS est en effet du raid soft, puissant.

Message par **gizmo78** » lun. 4 janv. 2016 10:14

HDFS c'est du fs distribué, donc ca dépend vraiment de l'infra

MystX en parle la:
http://forum.hardware.fr/hfr/OSAlternat ... 8_9984.htm

Message par **chour@mih-fr** » lun. 4 janv. 2016 20:13

ça devient "touchy" là ... On va commencer gentillement d'abord

J'ai une question sur les LUN et la manière de les implémenter dans XenServer. Je ne veux pas créer mes VM sur le NAS, mais utiliser l'espace de stockage plus important pour créer un vg (genre vg_data par exemple) sur chacune de mes VM.
Concrètement, comment ça va se traduire ? Je vais créer un "New Storage Repo" et dire aux VM de taper dedans ? Et côté VM je créé mon vg avec cet espace visible ?

Message par **biour** » jeu. 7 janv. 2016 20:42

http://www.lesnumeriques.com/imprimante ... 48795.html

Woot !! 20€ la lazer
40€ en lazer multifonction

Message par **poulpito** » jeu. 7 janv. 2016 22:35

et ca fait quoi dans big data @ home ^^ biour stop picole

Message par **biour** » jeu. 7 janv. 2016 22:43

bordel en effet ^^

Message par **jsonline** » lun. 18 janv. 2016 20:07

J'ai les bases du big data mais encore jamais fait en vrai.

Je trouve le sujet intéressant.

Message par **augur1** » jeu. 21 janv. 2016 14:48

Je trouve le sujet intéressant.

+1

... pour commencer, voici un début : http://www.ina.fr/video/CAA7800628501

Message par **chour@mih-fr** » lun. 8 févr. 2016 22:32

Hello

je n'ai pas laissé tomber, bien au contraire. J'ai pu monter au taff sur 2 petites VM un stack ELK.
J'alimente le cluster via un log forwarder "filebeat" vers logstash qui de décortique mes logs puis qui les envoies vers le moteur elastic pour l'indexation.
Seul bémol, ça tient pas la charge en nombre de fichiers "ouvrables" : logstash sature à 20'000 fichiers (limite du produit) et filebeat c'est carrément moins. Donc si on veut faire du chargement à posteriori faut prendre son mal en patience (+75000 log par mois d'un coté, et potentiellement 7000 de l'autre).

Sinon c'est bien sympa comme produit, c'est très flexible, ça peut tourner sur de toute petites bécanes (1 cpu 4Go de ram), mais c'est plutôt limité coté support os, AIX pas supporté, et RHEL 6 mini. Du coup je me mets 50% du parc à dos, solution non recevable. Splunk est en cours de déploiement et je devrais travailler dessus. Autre bémol, la conf décentralisée des logstash/filebeat. Sur un parc conséquent c'est impossible d'avoir une conf' homogène, enfin chez nous en tout cas.

Sinon c'est pas du BigData mon bazar, juste de l'analyse de log. Sur Splunk, il y aura un connecteur vers Hadoop pour déverser les données vieilles +1 mois vers le big data).

Pour terminer, j'ai mis aller 5J/H en partant de 0 (mais vraiment de 0) pour mettre en place l'infa, les filter logstash, les index et les bons mappings dans elastic, les log forwarder et la conf qui va bien, et produire mes premiers dashboard. Pas de dashboard "cross-index" pour le moment, je dois me pencher sur le sujet .