Scalding, WordCount in Hadoop does not have to contain 70 lines

20 Apr 2013.0 minutes read

Hadoop (Map Reduce) już na dobre zadomowił się w środowisku IT i jest ogólnie znanym narzędziem do przetwarzania dużych
ilości danych. Pisanie Jobów Hadoopowych mogłoby jednak być wygodniejsze, a word-count nie musi wcale mieć 70 linii kodu
a jedynie 6.

Podczas tej prezentacji zapoznamy się z Twitter Scalding, którego celem jest sprawienie pisania jobów MRowych możliwie
prostym, oraz „natywnym” dla Scali. Scalding jest cienką warstwą nadbudowaną nad Cascading – który umożliwia składanie
jobów Hadoopowych z klocków o wyższym poziomie abstrakcji niż czyste funkcje map/reduce.

Najpierw zapoznamy się ze stosowaną przez te narzędzia terminologią a następnie przejdziemy do przykładów zastosowania.
Do rozkoszowania się prezentacją nie jest wymagana zaawansowana znajomość Hadoopa ani Scali.

Slides

Note: slides are from other conference where same talk was presented

Blog Comments powered by Disqus.