Tester vos jobs MapReduce avec MRUnit

Les tests unitaires appartiennent aux bonnes pratiques du génie logiciel car ils permettent de détecter un certain nombre de regressions. Tester unitairement des jobs Hadoop MapReduce est bien sur possible mais, à cause de l’API, cela reste un exercice très verbeux et demandant un temps non négligeable pour obtenir des tests compréhensibles. MRUnit a été créé pour vous simplifier la vie…

Cascalog par Bertrand Dechoux au Hadoop User Group France

Bertrand Dechoux présente Cascalog au premier Hadoop User Group France qui s’est déroulé chez Xebia le 15 mars 2012…

Web sémantique pratique, les microformats

Le web évolue. Initialement, il s’agissait essentiellement d’une plate-forme de publication. Tout le monde pouvait lire les informations mais seule une minorité produisait le contenu. Sous le terme web 2.0, on désigne un renversement des habitudes. Tout le monde est maintenant à même d’échanger de l’information. Le contenu généré par les utilisateurs est d’ailleurs devenu la matière première de nombreux business ; Twitter en est un excellent exemple. C’est pour cela que le web 2.0 est également nommé web social.

L’évolution ne s’arrête pas là et un nouveau buzzword est apparu : le web 3.0, qui serait pour certains le web sémantique…

Storm, Hadoop Map Reduce en temps réel

BackType est une startup spécialisée dans l’analyse des données sociales : Twitter, Facebook, blogs, etc. Utilisant notamment Clojure et Python, les trois ingénieur-fondateurs ont mis en place une infrastructure à deux vitesses. Des batchs Hadoop effectuent les traitements lourds tandis que des topologies Storm mettent à jour les résultats à l’aide des dernières informations.

Juillet dernier, Twitter les a racheté et pendant la même période, Storm, leur innovation interne, fut rendue publique en tant que projet Open Source…

Cascalog ou comment écrire ses MapReduces de façon concise

Hadoop est devenu une référence dans l’univers du BigData, et MapReduce, un nouveau paradigme pour exploiter les données. Implémenter directement les traitements de données avec MapReduce donne certainement le plus de flexibilité, mais cela revient à utiliser de l’assembleur. Le manque d’abstraction et la verbosité induite nuisent à la productivité.

Il existe des alternatives, plus haut niveau. Pig et Hive en sont les plus connues. Déterminer la plus pertinente est un exercice difficile car la réponse dépend grandement de votre contexte. Le but de cet article est de vous présenter Cascalog, sans doute l’alternative la plus concise…