6 Fase CRISP-DM Data Mining

6 Fase CRISP-DM Data Mining


CRISP-DM merupakan singkatan dari Cross-Industry Standard Process Model for Data Mining. Secara umum menjelaskan tentang proses data mining dalam enam tahap.

Proses ini salah satu tujuannya untuk menemukan pola yang menarik dan bermakna dalam data. Serta melibatkan beberapa disiplin ilmu, seperti Statistika, Machine Learning, Artificial Intelligence, Pattern Recognition, dan Data Mining.

Salah satu keuntungan dari menggunakan proses ini adalah menjelaskan langkah paling umum dalam proses - prosesnya.

Proses ini juga melibatkan manajer dan praktisi secara bersamaan. Dimana manajer secara garis besar memberikan arahan tujuan utama proyek yang akan dikerjakan, ketersediaan data dan model - model yang akan digunakan. Sedangkan praktisi akan bekerja sesuai dengan bidangnya dalam setiap proses yang ada, praktisi disinipun bisa terdiri dari berbagai disiplin ilmu, bisa dari matematika, statistika, ataupun teknik informatika.


1.BUSINESS / RESEARCH UNDERSTANDING PHASE.

mengerti kebutuhan manajerial untuk pengetahuan baru dan spesifikasi eksplisit dari tujuan bisnis berkaitan dengan studi yang akan dilakukan.
  • Melafalkan tujuan dari proyek dan kebutuhan yang jelas dalam Bisnis atau unit penelitian secara keseluruhan.
  • Menterjemahkan tujuan-tujuan dan batasan-batasan kedalam formulasi definisi masalah data mining.
  • Menyiapkan strategi awal untuk mencapai tujuan ini.
Ini adalah tahap pertama dalam CRISP-DM dan termasuk bagian yang cukup vital dalam proyek dan selama pengerjaan pada proses selanjutnya. Pada tahap ini membutuhkan pengetahuan dari objek bisnis, bagaimana membangun atau mendapatkan data, dan bagaimana untuk mencocokan tujuan pemodelan untuk tujuan bisnis sehingga model terbaik dapat dibangun.

2.DATA UNDERSTANDING PHASE

Supaya lebih baik dalam mengerti data, seorang analist sering menggunakan berbagai teknik statistikal dan grafikal,seperti ringkasan statistikal sederhana dari tiap variabel
  • Kumpulkan data
  • Gunakan analisis data untuk membiasakan diri anda dengan data yang anda olah supaya anda dapat menemukan semacam initial insight.
  • Evaluasi kualitas data anda.
  • Jika di inginkan, pilih subset data yang paling menarik, mungkin saja disini berisi sebuah pola yang dapat ditindak lanjuti.
Tahap ini memberikan fondasi analitik untuk sebuah proyek dengan membuat ringkasaan (summary) dan mengidentifikasi potensi masalah dalam data. Tahap ini juga harus dilakukan secara cermat dan tidak terburu - buru, seperti pada visualisasi data, yang terkadang insightnya sangat sulit didapat dika dihubungkan dengan summary datanya. Jika ada masalah pada tahap ini yang belum terjawab, maka akan menggangu pada tahap modeling.

Ringkasan atau summary dari data dapat berguna untuk mengkonfirmasi apakah data terdistribusi seperti yang diharapkan, atau mengungkapkan penyimpangan tak terduga yang perlu ditangani pada tahap selanjutnya, yaitu Data Preperation

Masalah dalam data biasanya seperti nilai-nilai yang hilang, outlier, berdistribusi spike, berdistribusi bimodal harus diidentifikasi dan diukur sehingga dapat diperbaiki dalam Data Preperation.

3.DATA PREPARATION PHASE

Untuk mengambil data yang telah diidentifikasi pada langkah sebelumnya dan mempersiapkannya untuk analisis dengan metode data mining.
  • Siapkan raw data yang akan digunakan untuk seluruh tahap berikutnya. Fase ini cukup membuat sibuk
  • Pilih kasus dan variabel yang anda ingin analisa dan yang sesuai untuk analisa anda.
  • Jika diperlukan, Lakukan transformasi pada variabel-variabel tertentu.
  • Bersihkan raw data sehingga siap untuk digunakan pada modeling tools.
Tahap ini jelas membutuhkan pemikiran yang cukup matang dan usaha yang cukup tinggi untuk memastikan data tepat untuk algoritma yang digunakan.

Bukan berarti saat Data Preperation pertama kali dimana masalah-masalah pada data sudah diselesaikan, data sudah dapat digunakan hingga tahap terakhir. Tahap ini merupakan tahap yang sering ditinjau kembali saat menemukan masalah pada saat pembangunan model. Sehingga dilakukan iterasi sampai menemukan hal yang cocok dengan data.

Tahap sampling dapat dilakukan disini dan data secara umum dibagi menjadi dua, data training dan data testing.

4.MODELING PHASE

Pada langkah ini,berbagai teknik model diseleksi dan diaplikasikan pada dataset yang sudah disiapkan untuk menangani kebutuhan bisnis yang spesifik.
  • Pilih dan terapkan permodelan yang sesuai
  • Kalibrasi setting pada model untuk hasil yang optimal
  • Sering-sering ingat bahwa ada beberapa teknik yang berbeda, dapat digunakan untuk memecahkan permasalahan data mining yang sama.
  • Jika perlu, ulangi kembali ke tahap PREPARATION PHASE untuk membentuk data ke jalur yang sesuai dengan kebutuhan teknik data mining tertentu.
Pada tahap ini akhirnya kita dapat menggunakan Statistika dan Machine Learning untuk mendapatkan insight yang berguna dari data untuk mencapai tujuan proyek.

Beberapa modeling yang biasa dilakukan adalah classification, scoring, ranking, clustering, finding relation, characterization.

5.EVALUATION PHASE

Model yang dikembangkan dievaluasi dan diteliti untuk keakuratan dan ketidakakuratan.
  • Evaluasi satu atau lebih model demi kualitas dan kefektifannya sebelum digunakan di lapangan
  • Menentukan apakah model dalam kenyataannya mencapai tujuan yang diterapkan pada fase awal (BUSINESS / RESEARCH UNDERSTANDING PHASE)
  • Menentukan apakah beberapa aspek penting dari permasalahan bisnis atau riset telah diperhitungkan secara memadai.
  • Buatlah sebuah keputusan mengenai penggunaan hasil data mining.
Setelah mempunyai model, kita harus menentukan apakah sesuai dengan tujuan kita. Beberapa pertanyaan di bawah ini bisa membantu apakah model kita sudah sesuai dengan tujuan atau belum :
  • Apakah cukup akurat untuk kebutuhan kita ? Apakah mengeneralisasi dengan baik ?
  • Apakah model itu melakukan lebih baik daripada "tebakan beneran"?
  •  Lebih baik dari perkiraan apapun yang saat ini Anda gunakan ?
  • Apakah hasil dari model (koefisien, cluster, rule) masuk akal dalam konteks masalah domain ?

6.DEPLOYMENT PHASE

tujuannya agar memiliki eksporasi data yang sederhana
  • Gunakan model yang telah dibuat: penciptaan sebuah model bukan berarti proyek telah selesai
  • Contoh deployment sederhana:menghasilkan report
  • Contoh deployment yang kompleks: menerapkan proses data mining paralel pada departemen yang lain.
Tahap ini adalah tahap yang paling dihargai dari proses CRISP-DM. Perencanaan untuk Deployment dimulai selama Business Understanding dan harus menggabungkan tidak hanya bagaimana untuk menghasilkan nilai model, tetapi juga bagaimana mengkonversi skor keputusan, dan bagaimana untuk menggabungkan keputusan dalam sistem operasional.

Pada akhirnya, rencana sistem Deployment mengakui bahwa tidak ada model yang statis. Model tersebut dibangun dari data yang diwakili data pada waktu tertentu, sehingga perubahan waktu dapat menyebabkan berubahnya karakteristik data. Modelpun harus dipantau dan mungkin diganti dengan model yang sudah diperbaiki.

Bisa saya bilang, hal diatas baru kulitnya, namun belum bisa menjelaskan secara mendalam. Namun setidaknya kita sudah mendapat gambaran bagaimana membuat data yang kita punya memiliki value untuk membuat suatu hal, entah itu keputusan ataupun sebuah produk yang akan dijual.

baca juga Rangkuman Materi Data Mining



You Might Also Like:

Share this: