Big Data

Big Data mengacu pada penggunaan data dalam jumlah yang besar dari berbagai sumber dengan kecepatan pemrosesan yang tinggi untuk menghasilkan manfaat ekonomi. Masalah terutama pada pengumpulan, penyimpanan, pencarian, distribusi, analisis statistik dan visualisasi dari set data yang sangat besar tersebut, yang volumenya sudah masuk ke wilayah terabyte, petabyte dan exabyte.

Menurut perhitungan saat ini, secara global volume data meningkat dua kali lipat setiap 2 tahun. Perkembangan ini terutama didorong oleh peningkatan produksi data oleh mesin seperti protokol koneksi telekomunikasi (CDR) dan akses Web (file log), deteksi otomatis pembaca RFID, kamera, mikrofon dan sensor-sensor lainnya. Big Data juga diproduksi dalam industri keuangan berupa transaksi keuangan, data bursa, serta di sektor energi (data konsumsi) dan bidang kesehatan. Dalam bidang sain dan ilmu pengetahuan juga menghasilkan data dalam jumlah besar, seperti dalam geologi, genetika, penelitian iklim dan fisika nuklir. Para analis menyebutkan Big Data ngetren sejak tahun 2012.

Untuk pebisnis, analisis Big Data membuka peluang untuk mendapatkan keuntungan kompetitif, menggenerasi potensi tabungan dan penciptaan area bisnis baru. Dalam bidang penelitian, wawasan baru dapat diperoleh dengan menggabungkan sejumlah besar data dan analisis statistik. Lembaga negara berharap untuk hasil yang lebih baik di bidang kriminologi dan terorisme.

Sebagai contoh adalah :

  • Evaluasi akurat pada statistik web dan adaptasi iklan online,
  • Riset pasar lebih cepat, lebih baik,
  • Penemuan penyimpangan dalam transaksi keuangan (Fraud-Detection),
  • Pelaksanaan dan optimalisasi manajemen energi yang cerdas (Smart Metering),
  • Mengidentifikasi keterkaitan kasus dalam diagnosa medis,
  • Real-time Cross- and Upselling di e-commerce dan distribusi,
  • Sistem tagihan yang fleksibel di bidang telekomunikasi,
  • Membuat profil pergerakan secara diam-diam menggunakan program seperti Boundless Informant,
  • Akses dan Analisis Data berdasarkan ruang dan waktu di bidang ilmu pengetahuan dan industri, misalnya berdasarkan Open Geospatial Consortium-Standard Web Coverage Service.

Big Data by Dilbert

Pengolahan Big Data:

Sistem database relasional serta program statistik dan visualisasi tradisional sering tidak mampu menangani jumlah data yang sangat besar. Untuk itu Big Data menggunakan tipe baru dari perangkat lunak, yang bekerja secara paralel menggunakan ratusan, bahkan ribuan prosesor atau server dengan tantangan berikut:

  • Pengolahan banyak data set
  • Pengolahan beberapa kolom dalam kumpulan data
  • Mengimpor data dalam jumlah besar dengan cepat
  • Permintaan segera untuk data yang diimpor (Realtime Processing)
  • Respon waktu yang singkat bahkan untuk pertanyaan kompleks
  • Kemampuan untuk memproses banyak pertanyaan bersamaan (Concurrent Queries)

Pengembangan perangkat lunak untuk pengolahan data yang besar memang masih dalam tahap awal. Salah satu pendekatan prominen dan mencolok dari MapReduce menggunakan perangkat lunak open source (Apache Hadoop dan MongoDB), disamping beberapa produk komersial (Data Aster, Greenplum, dll).