Cascalog par Bertrand Dechoux au Hadoop User Group France

Bertrand Dechoux présente Cascalog au premier Hadoop User Group France qui s’est déroulé chez Xebia le 15 mars 2012…

Web sémantique pratique, les microformats

Le web évolue. Initialement, il s’agissait essentiellement d’une plate-forme de publication. Tout le monde pouvait lire les informations mais seule une minorité produisait le contenu. Sous le terme web 2.0, on désigne un renversement des habitudes. Tout le monde est maintenant à même d’échanger de l’information. Le contenu généré par les utilisateurs est d’ailleurs devenu la matière première de nombreux business ; Twitter en est un excellent exemple. C’est pour cela que le web 2.0 est également nommé web social.

L’évolution ne s’arrête pas là et un nouveau buzzword est apparu : le web 3.0, qui serait pour certains le web sémantique…

Storm, Hadoop Map Reduce en temps réel

BackType est une startup spécialisée dans l’analyse des données sociales : Twitter, Facebook, blogs, etc. Utilisant notamment Clojure et Python, les trois ingénieur-fondateurs ont mis en place une infrastructure à deux vitesses. Des batchs Hadoop effectuent les traitements lourds tandis que des topologies Storm mettent à jour les résultats à l’aide des dernières informations.

Juillet dernier, Twitter les a racheté et pendant la même période, Storm, leur innovation interne, fut rendue publique en tant que projet Open Source…

Cascalog ou comment écrire ses MapReduces de façon concise

Hadoop est devenu une référence dans l’univers du BigData, et MapReduce, un nouveau paradigme pour exploiter les données. Implémenter directement les traitements de données avec MapReduce donne certainement le plus de flexibilité, mais cela revient à utiliser de l’assembleur. Le manque d’abstraction et la verbosité induite nuisent à la productivité.

Il existe des alternatives, plus haut niveau. Pig et Hive en sont les plus connues. Déterminer la plus pertinente est un exercice difficile car la réponse dépend grandement de votre contexte. Le but de cet article est de vous présenter Cascalog, sans doute l’alternative la plus concise…