Apa itu data mining?
Data
Mining adalah proses penggalian pengetahuan yang berguna dan informasi dari
kumpulan data. Saat ini data mining telah digunakan di banyak domain aplikasi
seperti industri biomedis, ritel dan pemasaran, telekomunikasi, pertambangan
web, audit komputer, industri keuangan, obat-obatan dan seterusnya.
Klasifikasi
Klasifikasi adalah proses menempatkan
obyek atau konsep tertentu kedalam satu set kategori, berdasarkan sifat obyek
atau konsep yang bersangkutan (Gorunescu, 2011). Metode klasifikasi ditujukan
untuk pembelajaran fungsi-fungsi berbeda yang memetakan masing-masing data
terpilih kedalam salah satu dari kelompok kelas yang telah ditetapkan
sebelumnya. Proses klasifikasi didasarkan pada komponen (Gorunescu, 2011): a)
Kelas (class) Variabel dependen dari model yang merupakan kategori variabel yang
mewakili label-label yang diletakkan pada obyek setelah pengklasifikasian.
Contoh: kelas bintang dan kelas gempa bumi. b) Prediktor (predictors) Variabel
independen dari model yang diwakili oleh karakteristik atau atribut dari data
yang diklasifikasikan berdasarkan klasifikasi yang dibuat. Contoh: tekanan
darah, status perkawinan dan musim. c) Dataset pelatihan (training dataset)
Merupakan dataset yang berisi dua komponen nilai yang digunakan untuk pelatihan
untuk mengenali model yang sesuai dengan kelasnya, berdasarkan prediktor yang
ada. Contoh: database penelitian gempa, database badai dan database pelanggan
supermarket. d) Dataset pengujian (testing dataset) Merupakan dataset baru yang
akan diklasifikasikan oleh model yang dibangun sehingga dapat dievaluasi hasil
akurasi klasifikasi tersebut.
Algoritma Support
Vector Machine
Menurut
Prasetyo (2012) Support Vector Machine (SVM) adalah metode yang berakar dari
teori pembelajaran statistic yang hasilnya. sangat menjanjikan
untuk memberikan hasil yang lebih baik dari pada metode. SVM juga dapat bekerja
dengan baik pada set data berdimensi tinggi, bahkan SVM yang menggunakan teknik
kernel harus memetakan data asli dari dimensi asalnya menjadi dimensi lainya
yang relative lebih tinggi lain. Menurut Y. Yin, Han, & Cai, (2011) Support
Vector Machine (SVM) didefinisikan sebagai seperangkat metode pembelajaran
terkait yang menganalisis data dan mengenali pola, yang kemudian digunakan
untuk klasifikasi dan analisis regresi. SVM mengambil satu set data input dan
memprediksi untuk setiap masukan yang diberikan, yang berasal dari dua kelas
yang kemudian di klasifikasikan dengan mencari nilai hyperplane terbaik.
Menurut Li, You, & Liu (2015) Support
Vector Machine (SVM) merupakan pembelajaran yang mengarah ke pemrograman
kuadratik dengan kendala linear. Berdasarkan minimalisasi risiko prinsip
terstruktur, SVM berusaha untuk meminimalkan batas atas kesalahan generalisasi
bukan kesalahan empiris, sehingga model prediksi baru efektif menghindari
over-pas masalah. Selain itu, model SVM bekerja di ruang fitur berdimensi
tinggi yang dibentuk oleh pemetaan nonlinear dari N-dimensi vektor input x ke
dalam ruang fitur K-dimensi (K> N) melalui penggunaan fungsi φ nonlinear
(x).
Alogoritma
vector machine
METODE
PENELITIAN
1. Desain Penelitian
Dalam konteks sebuah penelitian, pendekatan
metode yang digunakan untuk memecahkan masalah, diantaranya: mengumpulkan data,
merumuskan hipotesis atau proposisi, menguji hipotesis, hasil penafsiran, dan
kesimpulan yang dapat dievaluasi secara independen oleh orang lain (Berndtsson,
Hansson, Olsson, & Lundell, 2010). Sedangkan menurut Dawson, (2011)
terdapat empat metode penelitian yang umum digunakan, diantaranya: Action
Research, Experiment, Case Study, dan Survey. Penelitian ini adalah penelitian
eksperimen dengan metode penelitian sebagai berikut:
a)
Pengumpulan Data Mengumpulkan data yang tersedia, memperoleh data tambahan
yang dibutuhkan, mengintegrasikan semua data kedalam data set, termasuk
variabel yang diperlukan dalam proses dan kemudian diseleksi dari data yang
tidak sesuai
b)
Pengolahan awal data Pada bagian ini dijelaskan tentang tahap awal
persiapan data olah. Pengolahan awal data meliputi proses input data ke format
yang dibutuhkan, pengelompokan dan penentuan atribut data, serta pemecahan data
(split) untuk digunakan dalam proses pembelajaran (training) dan pengujian
(testing).
c) Model yang diusulkan Penerapan
Algoritma Support Vector Machine (SVM) untuk meningkatkan tingkat kelulusan
mahasiswa.
d)
Eksperimen dan pengujian model Untuk eksperimen data penelitian, penulis
menggunakan RapidMiner 5 untuk mengolah data. Sedangkan untuk pengujian metode,
penulis membuat aplikasi menggunakan bahasa pemrograman PHP 5.4 dengan
framework Code Igniter dan menggunakan Sublime Text sebagai editor.
e)
Evaluasi dan validasi hasil Pada bagian ini dilakukan evaluasi dan validasi
hasil penerapan terhadap model.
Metode pengumpulan data
Pembahasan dan hasil
Pada tahap pertama
peneliti berekperiment dengan menguji data pada aplikasi Rapidminer menggunakan
algoritma Support Vector Machine. Peneliti menggunakan fitur read excel untuk
membaca data uji yang kemudian dihubungkan dengan remove duplicate dan
validasi. Di dalam validasi terbagi dalam dua frame yaitu Training dan Testing.
Pada frame training peneliti menggunakan algoritma Support Vector Machine (SVM)
yang kemudian dihubungkan dengan Apply Model dan Performance pada frame
Testing. Berikut adalah gambar pengujian algoritma Support Vector Machine menggunakan
RapidMiner pada frame training dan testing :
Hasil
Hasil Confusion
Matrix untuk Metode Support Vector Machine dapat dilihat dari table di atas.
Nilai 170 menunjukkan bahwa hasil prediksi negative dan data sebenarnya
negative. Nilai 38 menunjukkn hasil prediksi positif sedangkan nilai yang
sebenarnya adalah negatif. Nilai 4 menunjukkan bahwa hasil prediksi
negatif sedangkkan nilai sebenanya positif. Untuk yang terakhir nilai 12
menunjukkan bahwa hasil prediksi positif dan nilai sebenarnya positif. Tingkat
akurasi yang dihasilkan dengan menggunakan algoritma support vector machine
adalah sebesar 81.02%, dan dapat dihitung untuk mencari nilai accuracy,
sensitivity, specificity, ppv, dan npv.
http://download.portalgaruda.org/article.php?article=435148&val=6593&title=Seleksi%20Atribut%20Pada%20Metode%20Support%20Vector%20Machine%20Untuk%20%20Menentukan%20Kelulusan%20Mahasiswa%20E-Learning
Tidak ada komentar:
Posting Komentar