Decision tree adalah salah satu algoritma machine learning yang populer digunakan untuk tugas klasifikasi dan regresi. Algoritma ini bekerja dengan memecah dataset menjadi subset-subset yang lebih kecil sambil mengembangkan struktur pohon keputusan yang mirip dengan diagram alir. Artikel ini akan membahas penerapan decision tree untuk klasifikasi pada dataset wine, yang merupakan dataset terkenal dalam dunia machine learning.
Apa Itu Decision Tree?
Decision tree adalah model prediksi yang memetakan observasi tentang suatu item ke dalam kesimpulan mengenai nilai target item tersebut. Struktur pohon terdiri dari node keputusan yang mewakili atribut dari dataset, cabang yang mewakili aturan keputusan, dan node daun yang mewakili hasil akhir atau kelas.
Mengapa Menggunakan Decision Tree?
Mudah Dipahami dan Diinterpretasi: Visualisasi dari pohon keputusan membuatnya sangat intuitif dan mudah dipahami, bahkan oleh non-ahli.
Non-parametrik: Decision tree tidak memerlukan asumsi distribusi dari data, sehingga fleksibel dalam berbagai kondisi data.
Mampu Menangani Data Kategorikal dan Numerikal: Decision tree dapat menangani kedua jenis data ini tanpa perlu konversi yang kompleks.
Penerapan Decision Tree pada Dataset Wine
Langkah pertama adalah mempersiapkan data. Dataset wine bisa kita download di https://archive.ics.uci.edu/dataset/109/wine dan dapat diimpor menggunakan library seperti pandas di Python.
dan juga kita bisa mengimport library yang diperlukan untuk memproses Decision Tree menggunakan library sklearn yang tertera diatas.
Selanjutnya Upload dataset yang sudah di download di https://archive.ics.uci.edu/dataset/109/wine ke google drive. Karena nanti dataset tersebut akan kita import melalui google drive
Selanjutnya kita bisa mengimport dataset wine dengan menggunakan gdrive
Dalam hal ini, path yang diberikan menunjukkan bahwa file dataset disimpan di Google Drive
Selanjutnya kita bisa menampilkan data dari dataset wine yang mempunyai 13 kategori seperti class, Alcohol, Malicacid, Ash, Alcalinity_of_ash, Magnesium, Total_phenols, Flavanoids, Nonflavanoid_phenols, Proanthocyanins, Color_intensity dan sebagainya
Selanjutnya kita bisa memisahkah dataset wine menjadi variable x dan y untuk kita train dan testing.
Kita inisialisisasi model dari decision tree dan melatih model decision tree menggunakan data pelatihan X_train dan y_Train
Selanjutnya kita bisa membuat confusion matrix dan menghitung akurasi untuk mengevaluasi kinerja model klasifikasi yang menunjukkan jumlah prediksi yang benar dan salah untuk setiap kelas dan memberikan gambaran yang lebih rinci tentang kesalahan yang dibuat oleh model serta menghitung rasio antara jumlah prediksi yang benar dengan total jumlah prediksi yang dibuat.
dan terakhir kita bisa menampilkan hasil dari data yang kita latih dengan decision tree
Keuntungan dan Kekurangan Decision Tree
Keuntungan :
- Mudah untuk diinterpretasi dan divisualisasikan.
- Dapat menangani data numerik dan kategorikal.
- Memerlukan sedikit pra-pemrosesan data.
Kekurangan:
- Rentan terhadap overfitting, terutama jika pohon terlalu dalam.
- Perubahan kecil dalam data dapat menyebabkan perubahan besar dalam struktur pohon.
- Kepekaan terhadap data yang tidak seimbang.
Kesimpulan
Decision tree digunakan untuk membuat klasifikasi pada dataset wine yang memiliki 13 atribut yang mencakup berbagai karakteristik kimia seperti kadar alkohol, keasaman, kandungan fenol dan lain-lain.
Atribut-atribut ini digunakan untuk mengklasifikasikan wine ke dalam kolom yang berisi target (response) yang ingin diprediksi. Meskipun memiliki beberapa kelemahan, keuntungan dalam hal interpretasi dan fleksibilitas menjadikannya pilihan yang baik untuk banyak aplikasi machine learning. Dengan pemahaman yang baik tentang cara kerjanya dan penerapan yang tepat, decision tree dapat memberikan hasil yang sangat memuaskan.
Apakah kita bisa menggunakan dataset selain yang di contohkan ?
ReplyDelete