Page 1 sur 1
Big Data @ home avec Cloudera
Publié : sam. 2 janv. 2016 19:16
par chour@mih-fr
je souhaite me monter une infra Big Data @ home, d'une part pour m'auto-former sur la partie technique/architecture mais aussi parce que ça pourrait me servir pour le taff, voire plus.
Côté hardware, j'ai un Proliant 370G5 avec 8 cpu, 32Go de ram, un raid 5 de 72Go SAS en 15K, et mon NAS sur lequel je vais créer un ou plusieurs points de montage iSCSI.
Côté software, j'ai installé XenServer 6.5 sur le Proliant et je comptais monter plusieurs VM à base de CentOS 7.1
Pour le "Big Data" en lui-même, je suis parti sur la distrib Cloudera CDH 5.5.1 (qui package Apache Hadoop) et j'aimerais par la suite mettre en oeuvre le trio "Elastic Search/LogStash/Kibana".
Pour la partie Cloudera, je vais me baser sur ces tutoriels :
http://mbaron.developpez.com/tutoriels/ ... dera-cdh5/
http://mbaron.developpez.com/tutoriels/ ... dera-cdh5/
Pour le trio ELK, j'ai trouvé ceci :
https://www.digitalocean.com/community/ ... n-centos-7
Mais pour la partie Xen j'ai moins d'expérience. J'ai acquis un T400 ici pour installer XenCenter et voir comment tout cela fonctionne. Si vous avez des tutos sous le coude pour créer des VM avec Xen et gérer les partages disques (je pensais créer un point de montage sur mon NAS en iSCSI, afin que toutes les VM puissent taper dessus, ça parait cohérent ce que je raconte ?).
Mes premières interrogations tournent pour le moment autour de l'unique machine que j'ai à dispo pour travailler : ne vraudrait-il pas mieux installer directement un Linux dessus et ainsi profiter de la puissance directement, ou au contraire monter 6 noeuds avec 1 CPU et 4Go de ram par exemple ?
Charles
Big Data @ home avec Cloudera
Publié : sam. 2 janv. 2016 22:06
par chour@mih-fr
Premier élément de réponse que je m'apporte : je vais conserver le ELK + l'agent Filebeat, soit en tout 4 VM.
Big Data @ home avec Cloudera
Publié : sam. 2 janv. 2016 22:41
par Zedoune
Salut
Si tu as besoin de puissance, ne virtualises rien, utilises un seul système sur l'hôte.
Si tu veux apprendre à faire du "big data" ou du "cluster nosql" vaut mieux faire des VM par contre, mais tu dégrades énormément les performances
Big Data @ home avec Cloudera
Publié : sam. 2 janv. 2016 22:53
par poulpito
oui mais ca permet de tester
pour Xen ca marche sans soucis et c'est super simple à prendre en main
si tu veux rester light tu gère uniquement via le client win/linux xencenter
le seul point compliqué de xen c'est à mon sens la gestion réseau (hors fonction de base ou l'interface admin est partagée au vm) tout le reste est équivalent en accessibilité à du vmware
(xen orchestra ou autre c'est trop lourd pour ton utilisation)
Big Data @ home avec Cloudera
Publié : sam. 2 janv. 2016 22:55
par Zedoune
oui mais ca permet de tester
pour Xen ca marche sans soucis et c'est super simple à prendre en main
si tu veux rester light tu gère uniquement via le client win/linux xencenter
le seul point compliqué de xen c'est à mon sens la gestion réseau (hors fonction de base ou l'interface admin est partagée au vm) tout le reste est équivalent en accessibilité à du vmware
(xen orchestra ou autre c'est trop lourd pour ton utilisation)
Je répondais à son assertion

en précisant bien que pour apprendre c'était le mieux de faire des petites VM
ne vraudrait-il pas mieux installer directement un Linux dessus et ainsi profiter de la puissance directement, ou au contraire monter 6 noeuds avec 1 CPU et 4Go de ram par exemple ?
Big Data @ home avec Cloudera
Publié : sam. 2 janv. 2016 23:04
par poulpito
Big Data @ home avec Cloudera
Publié : dim. 3 janv. 2016 09:31
par chour@mih-fr

merci pour vos réponses, effectivement mon but #1 c'est bien de me former à monter une petite infra et à toucher à tout ce qui peut graviter autour du Big Data.
Je vais mettre de côté la couche Hadoop via Cloudera dans un premier temps, je vais déjà me concentrer sur ELK.
Bon dimanche !
Big Data @ home avec Cloudera
Publié : dim. 3 janv. 2016 12:12
par augur1
A propos de ELK
->
https://wooster.checkmy.ws/2015/07/elk- ... -solution/
Concernant le stockage, as tu pensé à du Lustre + ZFS ?
Big Data @ home avec Cloudera
Publié : dim. 3 janv. 2016 22:44
par chour@mih-fr
Merci pour le lien augur

Pour ma part, nous avons du Splunk en ce moment en test, mais son déploiement est fastidieux sur notre parc, non pas à cause de sa complexité, mais plutôt à cause de l'ombre qu'IBM peut faire dans notre SI
Je "connais" ZFS pour avoir lu ici le topic fut un temps. Cependant, non je ne connais Lustre couplé à du ZFS. Je vois vaguement ce que tu souhaites me faire dire : du scalable fs en zfs ? Grosso modo c'est du raid soft (désolé je suis une quiche en système de stockage) ?
Big Data @ home avec Cloudera
Publié : lun. 4 janv. 2016 09:37
par augur1
Vite fait par rapport à ce que que du as déjà pu lire sur le Big Data : Lustre + ZFS à la place du HDFS.
ZFS est en effet du raid soft, puissant.
Big Data @ home avec Cloudera
Publié : lun. 4 janv. 2016 10:14
par gizmo78
HDFS c'est du fs distribué, donc ca dépend vraiment de l'infra
MystX en parle la:
http://forum.hardware.fr/hfr/OSAlternat ... 8_9984.htm
Big Data @ home avec Cloudera
Publié : lun. 4 janv. 2016 20:13
par chour@mih-fr
ça devient "touchy" là ... On va commencer gentillement d'abord

J'ai une question sur les LUN et la manière de les implémenter dans XenServer. Je ne veux pas créer mes VM sur le NAS, mais utiliser l'espace de stockage plus important pour créer un vg (genre vg_data par exemple) sur chacune de mes VM.
Concrètement, comment ça va se traduire ? Je vais créer un "New Storage Repo" et dire aux VM de taper dedans ? Et côté VM je créé mon vg avec cet espace visible ?
Big Data @ home avec Cloudera
Publié : jeu. 7 janv. 2016 20:42
par biour
Big Data @ home avec Cloudera
Publié : jeu. 7 janv. 2016 22:35
par poulpito
et ca fait quoi dans big data @ home ^^ biour stop picole
Big Data @ home avec Cloudera
Publié : jeu. 7 janv. 2016 22:43
par biour
bordel en effet ^^
Big Data @ home avec Cloudera
Publié : lun. 18 janv. 2016 20:07
par jsonline
J'ai les bases du big data mais encore jamais fait en vrai.
Je trouve le sujet intéressant.
Big Data @ home avec Cloudera
Publié : jeu. 21 janv. 2016 14:48
par augur1
Je trouve le sujet intéressant.
+1
... pour commencer, voici un début :
http://www.ina.fr/video/CAA7800628501 
Big Data @ home avec Cloudera
Publié : lun. 8 févr. 2016 22:32
par chour@mih-fr
Hello
je n'ai pas laissé tomber, bien au contraire. J'ai pu monter au taff sur 2 petites VM un stack ELK.
J'alimente le cluster via un log forwarder "filebeat" vers logstash qui de décortique mes logs puis qui les envoies vers le moteur elastic pour l'indexation.
Seul bémol, ça tient pas la charge en nombre de fichiers "ouvrables" : logstash sature à 20'000 fichiers (limite du produit) et filebeat c'est carrément moins. Donc si on veut faire du chargement à posteriori faut prendre son mal en patience (+75000 log par mois d'un coté, et potentiellement 7000 de l'autre).
Sinon c'est bien sympa comme produit, c'est très flexible, ça peut tourner sur de toute petites bécanes (1 cpu 4Go de ram), mais c'est plutôt limité coté support os, AIX pas supporté, et RHEL 6 mini. Du coup je me mets 50% du parc à dos, solution non recevable. Splunk est en cours de déploiement et je devrais travailler dessus. Autre bémol, la conf décentralisée des logstash/filebeat. Sur un parc conséquent c'est impossible d'avoir une conf' homogène, enfin chez nous en tout cas.
Sinon c'est pas du BigData mon bazar, juste de l'analyse de log. Sur Splunk, il y aura un connecteur vers Hadoop pour déverser les données vieilles +1 mois vers le big data).
Pour terminer, j'ai mis aller 5J/H en partant de 0 (mais vraiment de 0) pour mettre en place l'infa, les filter logstash, les index et les bons mappings dans elastic, les log forwarder et la conf qui va bien, et produire mes premiers dashboard. Pas de dashboard "cross-index" pour le moment, je dois me pencher sur le sujet .