Mengenal Hadoop dalam Big Data

Tidak lengkap sepertinya kalau bicara big data tanpa bicara hadoop. Sebenarnya apa sih hadoop itu dan mengapa sangat spesial sekali dalam big data ini. Berawal dari inspirasi publikasi makalah Google MapReduce dan Google File System (GFS) pada Oktober 2003, paper ini berisikan gambaran tentang Big Data yang digunakan untuk menampung data milik Google yang sangat besar. Pada Tahun 2005, Doug Cutting dan Mike Cafarella mengembangkan Hadoop saat bekerja pada perusahaan Yahoo, nama Hadoop sendiri adalah nama mainan gajah berwarna kuning milik anak Doug Cutting..

Hadoop bisa menjadi solusi dalam mengatasi Big Data yang memiliki tantangan utama yaitu Volume, Velocity dan Variety atau data yang diolah sangat besar, butuh diakses dengan cepat dan sangat bervariasi sehingga sudah tidak dapat ditangani lagi oleh metode manajemen data konvensional. Hadoop adalah platform yang digunakan dengan memproses sejumlah data sebagai suatu kesatuan. Dengan menggunakan hadoop ini, dapat diproses data yang berukuran raksasa disalurkan ke server cluster - cluster distribusi dan selanjutnya menjalankan aplikasi analisis “terdistribusi” di setiap cluster.

Dulu seringkali Big Data sering bermasalah ketika data bersifat kompleks seperti structured data, semi-structured data sampai dengan unstructured data dan dikarena manjadi semakin penting bagi organisasi, kebutuhan pengolahan data lebih efektif dan efisien maka framework ini hadir dan memungkinkan pengolahan data lebih banyak, menyimpan leibh banyak dan meningkatkan kecepatan dalam prosesnya.

Perumpamaannya mungkin seperti jika kita ingin mengecat satu ruangan kamar rumah, jika hanya satu tukang cat mungkin akan membutuhkan waktu lebih lama untuk menyelesaikan pengecatan penuh satu ruangan kamar, tetapi jika ada beberapa tukang catnya tentunya dapat memangkas waktu yang dibutuhkan. Hadoop seperti tadi bekerja dengan beberapa tukang dengan waktu yang besamaan sehingga kecepatan prosesnya bisa lebih singkat.

Hadoop bekerja dengan dengan cluster dan terdistribusi. Hadoop didesain supaya tetap handal jadi meskipun ada satu atau beberapa server maupun kluster yang gagal, operasionalnya pun tetap efisien sebab cara kerjanya tidak memerlukan transfer data bervolume besar lintas jaringan. Hadoop ini memiliki empat modul utama yaitu HDFS, YARN, MapReduce, dan Hadoop Common

* Hadoop Distributed File System (HDFS) : file system terdistribusi yang beroperasi di hardware standar maupun low - end.

* Yet Another Resource Negotiator (YARN) : sistem yang mengatur dan memonitor cluster node dan resource usage

* MapReduce. Framework ini membantu program untuk melakukan komputasi secara paralel

* Hadoop common adalah penyedia library Java yang dapat digunakan oleh semua modul.

Hadoop bekerja dengan pendistribusian dataset dalam jumlah besar ke beberapa mesin berbeda, data tersebut diproses di waktu bersamaan, HDFS digunakan untuk menyimpan data, MapReduce memproses dan YARN membagi tugas.