Explorer vos données avec le Notebook d’IPython

Un algorithme de machine learning peut à terme sortir des résultats paraissant magiques. Mais la première étape sera toujours d’explorer les données. Sinon, on risque de tomber dans l’approche inverse : “garbage in, garbage out”. Pour faciliter cette exploration, on souhaite posséder un outil qui permette de projeter, agréger, visualiser les données mais également de partager ses découvertes. Sur ce point, le Notebook d’IPython est un outil à connaître. C’est un croisement entre un éditeur interactif (repl) et un EDI web mais il s’agit avant tout d’une plate-forme à ne pas sous-estimer…

[Livre] « Storm Real-time Processing Cookbook »

Storm permet de faire du traitement à la volée (stream processing) de façon distribuée et tolérante à la panne. D’une certaine façon, c’est la contrepartie à Hadoop MapReduce qui ne gère que du batch. Ce projet fut rendu open source fin 2011 et un écosystème commence à se former autour de celui-ci. Packt a publié un livre « Storm Real-time Processing Cookbook » destiné à démocratiser les recettes d’utilisation…

5ième Open Source Developers Conference France

Xebia participe à cet évènement en animant le slot Big Data, Big Mess ?, que je présenterai. Cela sera l’occasion d’aborder le fonctionnement de (Hadoop) MapReduce et l’écosystème qui s’est créé autour, afin de dégager des axes de bonnes conduites pour une mise en place d’Hadoop…

[Livre] « Entreprise Data Workflows with Cascading »

A la mi-juillet, le livre « Entreprise Data Workflows with Cascading » fut publié chez O’Reilly. Son auteur Paco Nathan est le « data science director » de « Concurrent, Inc », l‘entreprise ayant rendu Cascading open source et encore principal moteur de son évolution…

Voldemort, depuis Hadoop (3/3)

Précédemment, nous avons vu ensemble l’intérêt de Voldemort pour stocker vos recommandations quotidiennes (article) et comment installer Voldemort en lecture seule (article). Mais celui-ci, sans données, ne présente pas beaucoup d’intérêt. Il est désormais temps de terminer le tutoriel pas à pas, avec la génération des fichiers (données et index) depuis Hadoop, puis leur import….