Voldemort, en lecture seule (2/3)

Précédemment, nous avons vu l’intérêt de Voldemort pour stocker vos recommandations quotidiennes. Il est maintenant temps de mettre les mains dans le cambouis en commençant par installer Voldemort en lecture seule…

Voldemort, le gardien de vos recommandations quotidiennes (1/3)

Hadoop permet d’optimiser le temps d’exécution de traitements distribués quand ils sont limités par la bande passante vers les données. Mais, pour cette même raison, son système de fichiers (HDFS) n’est pas conçu pour les accès aléatoires. Si vous recalculez les recommandations pour vos utilisateurs chaque nuit, comment exposer alors à chaque utilisateur les données le concernant? BigData in, BigData out. Dans ce contexte, LinkedIn utilise Voldemort. Cette base de données clef/valeur propose en effet de construire son index en utilisant Hadoop. Nous allons voir ensemble la justification et la mise en place…

Hadoop Summit 2013 à Amsterdam, le rattrapage

Le premier Hadoop Summit en Europe est fini. Mais si vous n’avez pu y participer, il est toujours temps de se rattraper en consultant les slides et les vidéos des présentations renseignées sur le planning. Bien sûr, cela ne vous permettra pas de participer aux échanges ‘de couloirs’. Mais il ne faut pas non plus oublier que la communauté française est active au travers du Hadoop User Group France avec des réunions mensuelles. Pour ceux près de Paris, c’est l’occasion de partager de vive voix ses expériences. Et pour tout le monde, un accès à d’autres présentations, en français cette fois-ci.

Pendant ce Hadoop Summit européen, nous avons pu assister à de nombreuses présentations. Voici quelques notes concernant celles qui nous ont le plus marqué…

4ième Open Source Developers Conference France

Xebia participe à cet évènement en animant le slot Cascalog – progammation logique pour Hadoop, qui sera présenté par moi-même. Cela sera l’occasion d’aborder la pertinence d’une approche fonctionnelle pour réaliser des traitements distribués mais aussi de montrer que l’approche logique peut apporter une abstraction bien nécessaire. Les slides seront mises en ligne à l’issue de la conférence…

Les dessous de Cascalog, Cascading

On peut critiquer la verbosité de l’API MapReduce, mais cette problématique n’est pas tant liée à la syntaxe du langage hôte qu’au manque d’abstraction. Dans un précédent article, vous avez pu voir Cascalog au travers d’une approche hands-on et remarquer qu’il est possible d’exprimer succinctement des traitements de données complexes. Si vous avez creusé un peu plus, vous avez dû vous retrouver face à Cascading, la brique servant d’intermédiaire entre Cascalog et l’API MapReduce…