[Analisis Data] Dasar Alur Eksplorasi Data

220
0
code projected over woman

Ada banyak metodologi yang dapat digunakan dalam mengelola data dan informasi serta memaksimalkan eksplorasi wawasan (Insight) dari setiap data dan informasi yang dikelola. Salah satu metode dan standar proses yang komprehensif dalam mengeksplorasi data dan informasi adalah CRoss-Industry Standard Process for Data Mining (CRISP-DM). Proses CRISP-DM terbagi menjadi menjadi enam fase siklus. Ke-enam fase CRISP-DM tersebut meliputi Business Understanding, Data Understanding, Data Preparation, Modeling, Evaluation dan Deployment. Diagram alur dari ke enam tahapan dalam CRISP-DM tersebut dapat dilihat melalui Gambar 2 dibawah ini.

Bagan Alur CRoss-Industry Standard Process for Data Mining (CRISP-DM)

Berikut adalah penjelasan singkat dan beberapa hal penting yang perlu dilakukan dalam setiap fase dari CRISP-DM:

Business Understanding

Pemahaman proses bisnis perlu dilakukan dahulu sebelum melakukan analisis dan memahami dahulu permasalahan yang Ingin dipecahkan melalui analisis data, “Pemahaman masalah adalah hal krusial yang perlu dilakukan di awal.”(sumber gambar: Photo by fauxels from Pexels)

Fase awal ini menjadi salah satu fase paling penting dalam eksplorasi data dan informasi karena fase ini memiliki kaitan yang erat dengan tujuan dari eksplorasi yang dilakukan serta perencanaan awal dalam mengelola data dan informasi. Dalam tahapan ini perlu dilakukan pemetaan serta konfirmasi terhadap keperluan dari client (Atasan, pemberi tugas, keperluan lapangan). 

Pemahaman terkait poin-poin permasalahan yang ingin diselesaikan serta tujuan yang ingin dicapai oleh client perlu dijabarkan dengan jelas agar perencanaan awal dalam eksplorasi data menjadi  jelas. Contoh dalam kasus penangan COVID19 adalah:

  1. bagaimana trend perkembangan kasus COVID19 dalam 2 minggu terakhir?

  2. Bagaimana trend kapasitas tempat tidur Rumah Sakit dalam satu bulan terakhir? Rumah sakit mana yang penuh? 

Setiap permasalahan spesifik inilah yang kemudian dicarikan cara pemecahan permasalahannya untuk masuk pada fase fase berikutnya.

Data Understanding

Sumber gambar: Photo by Christina Morillo from Pexels

Pada fase ini fokus kerja yang dilakukan adalah pengumpulan aset data dan informasi penunjang yang sudah ada. Pemahaman terkait struktur data dan pemaknaan pada setiap variabel data diperlukan agar data yang nantinya dikelola dapat diinterpretasikan dengan baik.Beberapa pekerjaan yang dilakukan dalam fase ini beberapa diantaranya meliputi: 

  • Pengumpulan data (sumber data, metode pengumpulan data, permasalahan permasalahan yang ditemui dan solusi yang ingin dicapai dari data data tersebut) 

  • Pendeskripsian data bentukan data yang ada (tabular, spasial, atau narasi)

  • Melihat ukuran data seperti jumlah variabel, baris data.hingga pada variasi jenis data

  • Keberadaan dan aksesibilitas data meliputi tipe masing masing atribut/variabel, range dan korelasi masing masing atribut.

  • Pemahaman terhadap makna dari masing masing atribut/variabel dan juga istilah istilah teknis yang digunakan.

Data Preparation

Banyak dari waktu anda akan dihabiskan pada fase ini jadi mari menyeduh secangkir kopi (Sumber: Photo by Vlada Karpovich from Pexels

Pada fase ini, data yang telah dikoleksi pada fase Data Understanding direkonstruksi sesuai kebutuhan analisis yang akan inginkan. Pada dasarnya ada dua tahapan besar dalam proses persiapan data ini. Pertama adalah pemilihan data yang akan digunakan dan Kedua adalah pembersihan data (Data Cleaning/ Data Preparation/ Data Wrangling).

  • Pemilihan Data (penentuan kriteria data data yang akan digunakan; penentuan data yang akan digunakan; pengumpulan data tambahan yang diperlukan)

  • Pembersihan Data (mengisi data hilang, analisis outlier, rekayasa fitur, Penskalaan variabel numerik, sampling)

Dalam kebanyakan kasus, data preparation biasanya menghabiskan paling banyak waktu dan tenaga. Rata-rata 80% waktu dan tenaga dalam eksplorasi data akan dihabiskan oleh para praktisi data di fase ini. Untuk itu pada modul ini akan dikenalkan beberapa metode standar yang diperlukan untuk visualisasi data khususnya untuk persiapan data tabular terkait bencana.

Modeling

Pada dasarnya pemodelan (modeling) dapat diartikan sebagai suatu proses penyederhanaan suatu realita situasi agar dapat lebih mudah dipahami serta diambil wawasannya (Insight). Dalam modul ini modeling yang dilakukan terbatas pada modeling visual standar yang biasa digunakan untuk menyampaikan informasi kebencanaan baik dalam bentuk grafik, maupun peta. 

Tahapan pemodelan dalam metodologi CRISP-DM melibatkan proses pengembangan model yang bertujuan untuk mengekstraksi pola dan informasi yang berguna dari data. Berikut adalah rincian lebih lanjut tentang tahapan pemodelan:

  1. Identifikasi teknik pemodelan yang tepat: Pada tahap ini, analis data memilih teknik pemodelan yang paling sesuai dengan tujuan proyek dan karakteristik data yang ada. Teknik pemodelan dapat mencakup regresi, klasifikasi, clustering, analisis asosiasi, atau algoritma lainnya yang relevan.

  2. Desain eksperimen: Langkah ini melibatkan perencanaan rancangan eksperimen yang akan digunakan dalam pemodelan. Ini mencakup pemilihan variabel input (fitur) dan output (target), serta pemisahan data menjadi set pelatihan (training set) dan set validasi (validation set) yang akan digunakan untuk mengembangkan dan mengevaluasi model.

  3. Pemilihan parameter: Ketika menggunakan algoritma pemodelan tertentu, beberapa parameter harus ditentukan. Pada tahap ini, analis data melakukan pemilihan parameter yang optimal untuk memperoleh model yang terbaik. Hal ini melibatkan percobaan dengan berbagai konfigurasi parameter dan analisis hasilnya untuk memilih kombinasi parameter yang optimal.

  4. Pengembangan model: Pada tahap ini, analis data menggunakan data pelatihan (training data) untuk mengembangkan model. Ini melibatkan penerapan algoritma pemodelan yang dipilih dengan menggunakan teknik dan metode yang sesuai. Selama proses ini, model terus diperbaiki dan dioptimalkan untuk memaksimalkan kinerjanya.

  5. Evaluasi model: Setelah pengembangan model, tahap evaluasi dilakukan untuk mengukur kualitas dan kinerja model. Ini mencakup pengujian model menggunakan set validasi (validation set) yang terpisah dari data pelatihan untuk mengevaluasi prediksi model. Metrik evaluasi yang umum digunakan meliputi akurasi, presisi, recall, F1-score, dan lainnya, tergantung pada jenis masalah pemodelan yang dihadapi.

  6. Penyetujuan dan dokumentasi model: Jika model telah memenuhi kriteria evaluasi yang ditetapkan, tahap ini melibatkan proses penyetujuan model oleh pemangku kepentingan yang relevan. Model yang disetujui harus didokumentasikan dengan baik, termasuk detail tentang metode, parameter, dan asumsi yang digunakan.

  7. Implementasi dan penggunaan model: Model yang telah disetujui dan didokumentasikan dapat diimplementasikan dalam lingkungan produksi. Model ini dapat digunakan untuk mengambil keputusan bisnis, melakukan prediksi, memberikan rekomendasi, atau menyediakan wawasan berharga kepada pemangku kepentingan yang relevan.

  8. Pemantauan dan pemeliharaan model: Setelah implementasi, model perlu dipantau secara teratur untuk memastikan kinerjanya tetap optimal. Jika diperlukan, model perlu diperbarui atau diperbaiki seiring waktu untuk menjaga relevansi dan akurasi prediksi.

Melalui tahapan pemodelan yang sistematis ini, CRISP-DM membantu memastikan pengembangan model yang efektif dan dapat diandalkan, serta membantu organisasi dalam mengambil keputusan berdasarkan wawasan data yang akurat.

Evaluation

Fase evaluasi merupakan salah satu fase yang krusial dalam eksplorasi data. Hasil keluaran yang didapatkan, sebelum di rilis dan dilaporkan biasanya akan diperiksa kembali oleh pemberi tugas untuk memastikan kebutuhan kebutuhan informasinya sudah terakomodir dengan baik. Bilamana beberapa kebutuhan belum dapat terakomodir maka proses akan berbalik kembali dari fase Business Understanding khusus untuk memecahkan permasalahan permasalahan yang belum terpecahkan.

Berikut adalah rincian tahapan evaluasi (evaluation) dalam metodologi CRISP-DM:

  1. Persiapan evaluasi: Tahap ini melibatkan persiapan data dan lingkungan evaluasi. Data validasi yang terpisah biasanya digunakan untuk menguji kinerja model yang telah dikembangkan. Selain itu, metrik evaluasi yang relevan juga harus ditentukan sebelumnya, seperti akurasi, presisi, recall, F1-score, atau metrik lainnya sesuai dengan jenis masalah pemodelan yang dihadapi.

  2. Evaluasi kualitas model: Pada tahap ini, model yang dikembangkan dievaluasi berdasarkan data validasi yang terpisah. Metrik evaluasi digunakan untuk mengukur kinerja model, termasuk kemampuan model dalam melakukan prediksi yang akurat dan memenuhi tujuan bisnis yang ditetapkan. Evaluasi juga mencakup analisis terhadap kelemahan, batasan, atau bias yang mungkin ada dalam model.

  3. Analisis kesalahan: Tahap ini melibatkan analisis lebih lanjut terhadap kesalahan yang dibuat oleh model. Analis data mengidentifikasi jenis kesalahan yang paling umum, seperti kesalahan prediksi positif palsu (false positive) atau negatif palsu (false negative). Analisis ini membantu memahami penyebab kesalahan dan dapat memberikan wawasan tentang bagaimana model dapat ditingkatkan.

  4. Optimisasi model: Jika hasil evaluasi menunjukkan kinerja model yang belum memenuhi standar yang ditetapkan, tahap ini melibatkan upaya untuk meningkatkan kinerja model. Hal ini dapat mencakup pemilihan fitur yang lebih baik, pengoptimalan parameter, atau penggunaan teknik pemodelan yang lebih canggih. Model dievaluasi dan ditingkatkan secara iteratif hingga mencapai kinerja yang diharapkan.

  5. Penyampaian hasil evaluasi: Hasil evaluasi, termasuk kinerja model dan analisis kesalahan, harus disampaikan kepada pemangku kepentingan yang relevan. Laporan evaluasi yang jelas dan terperinci membantu memahamkan tingkat keberhasilan model serta memberikan pemahaman tentang risiko dan peluang yang terkait dengan penggunaan model.

Tahapan evaluasi ini penting untuk memastikan bahwa model yang dikembangkan dapat diandalkan dan memenuhi tujuan bisnis yang diinginkan. Evaluasi yang cermat membantu mengidentifikasi kelemahan dan potensi peningkatan model sehingga dapat diambil tindakan yang sesuai untuk meningkatkan kualitas dan kinerja model.

Deployment

Dengan mempertimbangkan hasil evaluasi, pada fase ini tim data dan informasi dapat merilis analisis yang telah dilakukan dan melakukan pembaharuan data secara rutin. 

Deployment, atau tahap implementasi, dalam metodologi CRISP-DM merupakan tahap di mana model yang telah dikembangkan dan dievaluasi siap untuk digunakan dalam lingkungan produksi. Tahap ini melibatkan penerapan model yang telah disetujui dan memastikan bahwa model tersebut dapat berfungsi dengan baik dan memberikan nilai tambah yang diharapkan. Berikut adalah narasi rinci untuk tahap Deployment:

  1. Persiapan implementasi: Sebelum model dapat diimplementasikan, persiapan teknis dan operasional perlu dilakukan. Ini melibatkan pengaturan infrastruktur yang dibutuhkan, seperti server, perangkat keras, perangkat lunak, dan sumber daya komputasi yang diperlukan untuk menjalankan model. Selain itu, sumber daya manusia yang terlibat dalam penggunaan dan pemeliharaan model juga perlu dilibatkan dan dipersiapkan.

  2. Integrasi model: Tahap ini melibatkan integrasi model ke dalam sistem atau platform yang relevan. Model perlu diintegrasikan dengan aplikasi atau sistem yang ada agar dapat digunakan secara efektif. Proses integrasi ini melibatkan pengembang perangkat lunak dan analis data yang bekerja sama untuk memastikan bahwa model dapat diintegrasikan dengan benar dan berinteraksi dengan sistem yang ada sesuai dengan kebutuhan.

  3. Pengujian implementasi: Sebelum model diperkenalkan secara luas, pengujian implementasi harus dilakukan. Pengujian ini mencakup pengujian fungsionalitas model, kehandalan, dan kinerjanya di lingkungan produksi. Tujuan pengujian ini adalah untuk memastikan bahwa model berjalan dengan baik, memberikan hasil yang akurat, dan sesuai dengan tujuan yang ditetapkan.

  4. Pelatihan pengguna: Pengguna atau pemangku kepentingan yang akan menggunakan model perlu diberikan pelatihan yang sesuai. Pelatihan ini meliputi pemahaman tentang cara menggunakan model, interpretasi hasil, dan pemahaman mengenai batasan dan kelemahan model. Pelatihan yang efektif membantu pengguna dalam memahami dan menggunakan model dengan tepat, sehingga mengoptimalkan manfaat yang dapat diperoleh dari model tersebut.

  5. Penyampaian dan dokumentasi: Setelah model diimplementasikan, hasil, metode, dan keputusan yang dihasilkan oleh model perlu didokumentasikan secara rinci. Dokumentasi ini mencakup penjelasan tentang bagaimana model beroperasi, batasan dan asumsi yang digunakan, serta metrik evaluasi dan kriteria yang digunakan dalam mengukur kinerja model. Dokumentasi yang baik memastikan kelancaran penggunaan dan pemeliharaan model di masa depan.

  6. Pemantauan dan pemeliharaan: Setelah implementasi, model perlu dipantau secara teratur untuk memastikan kinerjanya tetap optimal. Pemantauan ini melibatkan pemantauan hasil model, pelacakan perubahan tren, dan identifikasi potensi perbaikan atau peningkatan yang dapat dilakukan. Pemeliharaan model melibatkan pembaruan dan peningkatan model sesuai dengan kebutuhan yang berkembang seiring waktu.

Dalam keseluruhan, tahap Deployment dalam CRISP-DM merupakan langkah penting untuk mengimplementasikan model yang telah dikembangkan dan memastikan model tersebut dapat berfungsi dengan baik di lingkungan produksi. Tahap ini melibatkan integrasi, pengujian, pelatihan pengguna, dokumentasi, pemantauan, dan pemeliharaan model untuk memastikan bahwa nilai tambah dari model dapat diwujudkan dan berkelanjutan.

dewaputuam
WRITTEN BY

dewaputuam

I'm a Disaster Analyst, Agro-Climatologist, and GIS Analyst. I like drawing, writing, playing guitar, gardening, and maybe reading too.

Leave a Reply

Total
0
Share

Discover more from Dewa Putu AM

Subscribe now to keep reading and get access to the full archive.

Continue reading