Cascalog ou comment écrire ses MapReduces de façon concise

Hadoop est devenu une référence dans l’univers du BigData, et MapReduce, un nouveau paradigme pour exploiter les données. Implémenter directement les traitements de données avec MapReduce donne certainement le plus de flexibilité, mais cela revient à utiliser de l’assembleur. Le manque d’abstraction et la verbosité induite nuisent à la productivité.

Il existe des alternatives, plus haut niveau. Pig et Hive en sont les plus connues. Déterminer la plus pertinente est un exercice difficile car la réponse dépend grandement de votre contexte. Le but de cet article est de vous présenter Cascalog, sans doute l’alternative la plus concise…

Bertrand Dechoux

Bertrand Dechoux
Lead Data Engineer/Data Scientist at @Influans. Ex-xebian. Clojure fan for life.

Effective assertions, from Java to Scala

Unit testing should be part of any project. Hard to disagree. However, many complementary tools exist for various purposes. This is the c...… Continue reading

Scala code quality with maven

Published on January 27, 2016

A blog in 2016!

Published on January 01, 2016