Dr Yeni Herdiyeni Bagikan dan Demonstrasikan Penerapan Aplikasi Hadoop dan Spark Dalam Proses Analisis Big Data
Dr Yeni Herdiyeni Bagikan dan Demonstrasikan Penerapan Aplikasi Hadoop dan Spark Dalam Proses Analisis Big Data
Departemen Ilmu Komputer, Fakultas Matematika dan Ilmu Pengetahuan Alam (FMIPA) IPB University bekerjasama dengan Unit Laboratorium Unggulan IPB University kembali mengulas lebih dalam teknologi High Performance Computing (HPC). Dalam HPC Webinar Series ke-3, tema yang diangkat adalah “HPC untuk Analisis Big Data dengan Hadoop dan Spark,” 13/07.
Webinar ini menghadirkan Dr Yeni Herdiyeni, Dosen IPB University dari Departemen Ilmu Komputer. Dalam paparannya, ia membahas program Hadoop dan Spark dengan memilih dua jenis yang relevan yakni Map Reduce dan MLLib. Ia juga mendemonstrasikan penggunaan Hadoop dan Spark bagi big data analysis agar mahasiswa dapat mempelajarinya dari rumah.
Dosen IPB University itu menjelaskan, dengan pertumbuhan data yang sangat eksplosif, analisis big data menjadi hal yang penting untuk dipahami oleh peneliti. Menurutnya, analisis data menjadi semakin kompleks dan kebutuhan terhadap teknologi machine learning sangat besar.
“Terutama apabila peneliti ingin mendapatkan data yang interaktif sehingga harus selalu update dan cepat,” kata Dr Yeni.
Ia mencontohkan pada kasus permintaan data forecasting pada penumpang kereta serta data penjualan. Dengan demikian, penting untuk mempelajari atribut data yang dibutuhkan dan membangun machine learning yang sesuai.
“Inilah salah satu contoh kasus mengapa kita harus belajar big data analytic, karena kebutuhannya di dunia industri sudah sangat mendesak,” ungkapnya.
Ia juga menjelaskan, hal penting yang harus dipersiapkan adalah pengetahuan terhadap riset pararel computing. Ia juga menyebut, peneliti harus paham tentang topik yang akan dikuasai sehingga dapat melakukan modeling secara tepat.
Berkaitan dengan big data computing, hal yang difokuskan adalah pengelolaan data streaming. Data streaming yakni cara mendistribusikan data ke dalam beberapa klaster. Big data computing disebutnya dengan data center, sedangkan pada HPC disebutnya dengan proses komputasi yang cepat. Perbedaan perspektif tersebut membuat proses analisis antara HPC dan big data computing agak berbeda.
Penggunaan program bagi big data sangat fleksibel, contohnya pada hadoop dan spark. Aplikasinya dapat diterapkan untuk kebutuhan query log processing, crawling atau mendapatkan informasi dari website, indexing, machine learning, recommendation system, bioinformatika, dan analisis genom.
Dalam arsitekturnya, salah satunya terdapat gudang data dengan penggunaan Spark dan Hadoop. Dalam gudang data tersebut terdapat proses manajemen data dan stream processing. Jenis outputnya ada batch processing atau stream processing yakni secara realtime atau tidak, tergantung kebutuhan peneliti.
“Data akses yang diperlukan harus dipilih antara batch atau real time. Dua konsep ini harus dipelajari terlebih dahulu karena akan sangat berpengaruh kepada pemilihan apakah akan pakai Hadoop atau Spark. Untuk mengetahui antara batch processing atau stream processing itu tergantung pada proses bisnisnya,” jelas Dr Yeni.
Hadoop digunakan untuk batch processing misalnya pada sales demand forecasting kereta. Sedangkan spark untuk penggunaan stream processing yang membutuhkan data real time, misal pada flow kartu kredit. kedua program tersebut didesain untuk dua objektif yang berbeda, jadi tidak bisa dibandingkan hanya berdasarkan kecepatan prosesnya. Namun demikian, harus disesuaikan dengan proses bisnisnya. Secara arsitektur, dalam prosesnya, Hadoop berinteraksi langsung dengan disk atau penyimpanannya sehingga bersifat high cost. Sedangkan Spark bermain pada akses ke memori sehingga proses membacanya lebih cepat. (MW)
Source : Dr Yeni Herdiyen, http://ipb.ac.id