Rabu, 21 Mei 2014
MID Peng. Intelijen Buatan Kelas B
PENERAPAN
ALGORITMA NAIVE BAYES
UNTUK MENGKLASIFIKASI
DATA NASABAH
ASURANSI
Oleh : Bustami
Dosen Teknik Informatika Universitas Malikussaleh
ABSTRAK
Data
mining adalah teknik yang memanfaatkan data dalam jumlah yang besar untuk
memperoleh informasi berharga yang sebelumnya tidak diketahui dan dapat dimanfaatkan
untuk pengambilan keputusan penting. Pada penelitian ini, penulis berusaha
menambang data (data mining) nasabah sebuah perusahaan asuransi untuk
mengetahui lancar, kurang lancar atau tidak lancarnya nasabah tersebut. Data yang ada dianalisis menggunakan algoritma Naive Bayes. Naive Bayes merupakan
salah satu meode pada probabilistic reasoning. Algoritma Naive Bayes bertujuan
untuk melakukan klasifikasi data pada kelas tertentu, kemudian pola tersebut
dapat digunakan untuk memperkirakan nasabah yang bergabung, sehingga perusahaan
bisa mengambil keputusan menerima atau menolak calon nasabah tersebut.
Kata Kunci : data mining, asuransi,
klasifikasi, algoritma Naive Bayes
PENDAHULUAN
Premi
merupakan pendapatan bagi perusahaan asuransi, yang jumlahnya ditentukan dalam
suatu persentase atau tarif tertentu dari jumlah yang dipertanggungkan. Bagi
tertanggung premi merupakan beban karena membayar premi merupakan beban
tertanggung. Pendapatan premi untuk perusahaan asuransi ditentukan oleh jumlah
premi yang dibayar oleh nasabah.
Permasalahan
yang sering timbul dalam perusahaan asuransi adalah banyaknya nasabah yang
menunggak dalam membayar premi, sehingga diperlukan sebuah sistem yang dapat
mengklasifikasikan nasabah mana yang masuk ke dalam kelompok lancar, kelompok
kurang lancar dan nasabah mana yang masuk kedalam kelompok tidak lancar dalam membayar
iuran premi. Sehingga pihak asuransi bisa mengatasi sejak dini permasalahan
tersebut.
Sebuah
perusahaan asuransi pastilah mempunyai data yang begitu besar. Banyak yang
belum menyadari bahwa dari pengolahan data data tersebut dapat memberikan
informasi berupa klasifikasi data nasabah yang akan bergabung pada perusahaan
itu sendiri. Penggunaaan teknik data mining diharapkan mampu memberikan
informasi yang berguna tentang teknik klasifikasi data nasabah yang akan
bergabung dalam kelompok lancar, kelompok kurang lancar atau tidak lancar dalam
membayar premi.
LANDASAN TEORI
a. Data Mining
Data
mining adalah penambangan atau penemuan informasi baru dengan mencari pola atau
aturan tertentu dari sejumlah data yang sangat besar. Data mining juga disebut
sebagai serangkaian proses untuk menggali nilai tambah berupa pengetahuan yang
selama ini tidak diketahui secara manual dari suatu kumpulan data.
Tahapan dari proses Knowledge Discovery in Database (KDD) adalah :
1. Selection
2. Pre-Processing / Cleaning.
3. Transformation
4. Data Mining
5 Interpretation / Evaluation.
b. Metode Klasifikasi
Klasifikasi
adalah proses untuk menemukan model atau fungsi yang menjelaskan atau
membedakan konsep atau kelas data, dengan tujuan untuk dapat memperkirakan
kelas dari suatu objek yang labelnya tidak diketahui. Dalam mencapai tujuan
tersebut, proses klasifikasi membentuk suatu model yang mampu membedakan data
kedalam kelas-kelas yang berbeda berdasarkan aturan atau fungsi tertentu. Model
itu sendiri bisa berupa aturan “Jika-Maka”,
berupa pohon keputusan, atau formula matematis.
c. Algoritma Naive Bayes
Algoritma Naive Bayes merupakan
salah satu algoritma yang terdapat pada teknik klasifikasi. Naive Bayes merupakan
pengklasifikasian dengan metode probabilitas dan statistik yang dikemukan oleh
ilmuwan Inggris Thomas Bayes, yaitu memprediksi peluang di masa depan berdasarkan
pengalaman dimasa sebelumnya sehingga dikenal sebagai Teorema Bayes.
Teorema tersebut dikombinasikan dengan Naive
dimana diasumsikan kondisi antar atribut
saling bebas. Klasifikasi Naive
Bayesdiasumsikan bahwa ada atau tidak ciri
tertentu dari sebuah kelas tidak ada hubungannya dengan ciri dari kelas
lainnya.
Persamaan dari teorema Bayes adalah
:
X :
Data dengan class yang belum diketahui
H :
Hipotesis data merupakan suatu class spesifik
P(H|X) :
Probabilitas hipotesis berdasar kondisi (posteriori probability)
P(H) :
Probabilitas hipotesis H (prior probability)
P(X|H) :
Probabilitas X berdasarkan kondisi pada hipotesis H
P(X) :
Probabilitas X
Untuk menjelaskan teorema Naive Bayes, perlu diketahui bahwa proses klasifikasi
memerlukan sejumlah petunjuk untuk menentukan kelas apa yang cocok bagi
sampel yang dianalisis tersebut. Karena itu, teorema
bayes di atas disesuaikan sebagai berikut :
Dimana Variabel C merepresentasikan kelas, sementara variabel F1 ... Fn
merepresentasikan karakteristik petunjuk yang dibutuhkan untuk melakukan
klasifikasi. Maka rumus tersebut menjelaskan bahwa peluang masuknya
sampel karakteristik tertentu dalam kelas C (Posterior) adalah peluang
munculnya kelas C (sebelum masuknya sampel tersebut, seringkali disebut
prior), dikali dengan peluang kemunculan karakteristik karakteristik
sampel pada kelas C (disebut juga likelihood), dibagi dengan peluang
kemunculan karakteristik karakteristik sampel secara global ( disebut
juga evidence). Karena itu, rumus diatas dapat pula ditulis secara
sederhana sebagai berikut :
Nilai Evidence selalu tetap untuk setiap kelas pada satu sampel. Nilai
dari posterior tersebut nantinya akan dibandingkan dengan nilai nilai
posterior kelas lainnya untuk menentukan ke kelas apa suatu sampel akan
diklasifikasikan. Penjabaran lebih lanjut rumus Bayes tersebut dilakukan
dengan menjabarkan (C|F1, . . .Fn) menggunakan aturan perkalian sebagai
berikut :
Dapat dilihat bahwa hasil penjabaran tersebut menyebabkan semakin banyak
dan semakin kompleksnya faktor faktor syarat yang mempengaruhi nilai
probabilitas, yang hampir mustahil untuk dianalisa satu persatu.
Akibatnya, perhitungan tersebut menjadi sulit untuk dilakukan. Disinilah
digunakan asumsi independensi yang sangat tinggi (naif), bahwa masing
masing petunjuk (F1,F2,...Fn) saling bebas (independen) satu sama lain.
Dengan asumsi tersebut, maka berlaku suatu kesamaan sebagai berikut:
Untuk i =/ j , sehingga
Dari persamaan diatas dapat disimpulkan bahwa asumsi independensi naif
tersebut membuat syarat peluang menjadi sederhana, sehingga perhitungan
menjadi mungkin untuk dilakukan. Selanjutnya, penjabaran P(C|F1,...Fn)
dapat disederhanakan menjadi :
Persamaan diatas merupakan model dari teorema Naive Bayes yang
selanjutnya akan digunakan dalam proses klasifikasi. Untuk klasifikasi
dengan data kontinyu digunakan rumus Densitas Gauss :
Adapun alur dari metode Naive Bayes adalah sebagai berikut :
1. Baca data training
2. Hitung Jumlah dan probabilitas, namun apabila data numerik maka:
a.Cari nilai mean dan standar deviasi dari masing masing parameter yang merupakan data numerik.
b. Cari nilai probabilistik dengan cara menghitung jumlah data yang
sesuai dari kategori yang sama dibagi dengan jumlah data pada kategori
tersebut.
3. Mendapatkan nilai dalam tabel mean, standart deviasi dan probabilitas.
PERANCANGAN BASIS DATA
a. Desain Tabel Admin
Tabel ini digunakan untuk menyimpan data admin
b. Desain Tabel Data Nasabah
Tabel ini digunakan untuk menyimpan data nasabah yang akan digunakan dalam sistem.
c. Desain Tabel Variabel Calon Nasabah
Tabel ini digunakan untuk menyimpan variable yang akan digunakan dalam sistem.
IMPLEMENTASI DENGAN PERHITUNGAN NAIVE BAYES
Model statistik merupakan salah satu model yang efisien sebagai
pendukung pengambilan keputusan. Konsep probabilistik merupakan salah
satu bentuk model statistik. Salah satu metode yang menggunakan konsep
probabilistik adalah Naive Bayes. Algoritma Naive Bayes adalah salah
satu algoritma dalam teknik klasifikasi yang mudah diimplementasikan dan
cepat prosesnya. Pada metode ini, semua atribut akan memberikan
kontribusinya dalam pengambilan keputusan, dengan bobot atibut yang sama
penting dan setiap atribut saling bebas satu sama lain. Apabila
diberikan k atribut yang saling bebas (independence), nilai probabilitas
dapat diberikan sebagai berikut:
Tahap awal cara kerja dari proses perhitungan Naive Bayes adalah
dengan melakukan pengambilan data training dari data nasabah asuransi.
Adapun variabel penentu yang digunakan dalam mengklasifikasikan data
nasabah yaitu :
1. Jenis Kelamin
Merupakan variabel jenis kelamin nasabah yang dikelompokkan dalam dua kategori yaitu laki laki dan perempuan.
2. Usia
Merupakan variabel usia nasabah yang di kelompokkan dalam tiga kategori yaitu 20 - 29 tahun, 30 - 40 tahun, dan diatas 40 tahun.
3. Status
Merupakan variabel status nasabah yang dikelompokkan dalam dua kategori yaitu kawin dan belum kawin.
4. Pekerjaan
Merupakan variabel pekerjaan nasabah yang dikelompokkan dalam tiga kategori yaitu PNS, Pegawai Swasta, Wiraswasta.
5. Penghasilan
Merupakan variabel penghasilan dari nasabah yang dikelompokkan dalam
tiga kategori yaitu 0 - 25 juta, 25 - 50 juta, dan diatas 50 juta.
6. Cara pembayaran premi
Merupakan variabel cara pembayaran premi yang dikelompokkan dalam empat
kategori yaitu bulanan, triwulan, semesteran, dan tahunan.
7. Masa pembayaran premi
Merupakan variabel masa pembayaran premi yang dikelompokkan dalam tiga
kategori yaitu 5 - 10 tahun, 11 - 15 tahun, dan diatas 15 tahun.
Berdasarkan tabel diatas dapat dihitung klasifikasi data nasabah apabila
diberikan input berupa jenis kelamin, usia, status, pekerjaan,
penghasilan/tahun, masa asuransi dan cara pembayaran menggunakan
algoritma Naive Bayes. Apabila diberikan input baru, maka klasifikasi
data nasabah asuransi dapat ditentukan melalui langkah berikut :
1. Menghitung jumlah class / label
2. Menghitung jumlah kasus yang sama dengan class yang sama
P(Jenis Kelamin = Laki-laki| Y=Lancar) = 5/9
P(Jenis Kelamin = Laki-laki| Y=Kurang Lancar) = 2/4
P(Jenis Kelamin = Laki-laki| Y=Tidak Lancar) = 4/7
P(Usia = 30 - 40 Tahun| Y=Lancar) = 7/9
P(Usia = 30 - 40 Tahun| Y=Kurang Lancar) =2/4
P(Usia = 30 - 40 Tahun| Y=Tidak Lancar) = 3/7
P(Status = Kawin| Y=Lancar) = 4/9
P(Status = Kawin| Y=Kurang Lancar) = 4/4
P(Status = Kawin| Y=Tidak Lancar) = 6/7
P(Pekerjaan = Wiraswasta| Y=Lancar) = 6/9
P(Pekerjaan = Wiraswasta| Y=Kurang Lancar) = 2/4
P(Pekerjaan = Wiraswasta| Y=Tidak Lancar) = 2/7
P(Penghasilan = 25 50 Juta| Y=Lancar) = 2/9
P(Penghasilan = 25 50 Juta| Y=Kurang Lancar) = 1/4
P(Penghasilan = 25 50 Juta| Y=Tidak Lancar) = 3/7
P(Masa_Asuransi = 11 15 Tahun| Y=Lancar) = 7/9
P(Masa_Asuransi = 11 15 Tahun| Y=Kurang Lancar) = 1/4
P(Masa_Asuransi = 11 15 Tahun| Y=Tidak Lancar) = 4/7
P(Cara Pembayaran = Semesteran| Y=Lancar) = 3/9
P(Cara Pembayaran = Semesteran| Y=Kurang Lancar) = 1/4
P(Cara Pembayaran = Semesteran| Y=Tidak Lancar) = 1/7
3. Kalikan semua hasil variabel Lancar, Kurang Lancar dan Tidak Lancar
P(Laki Laki\Lancar) * P(30 40 Tahun\Lancar) * P(Kawin\Lancar).
P(Wiraswasta\Lancar) * P(25 50 Juta\Lancar) * P(11 15 Tahun\Lancar).
P(Semesteran\Lancar) * P(Lancar)
P(Laki Laki \ Kurang Lancar) * P(30 40 Tahun \ Kurang Lancar) *
P(Kawin\Kurang Lancar) * P(Wiraswasta\ Kurang Lancar) * P(25 50
Juta\Kurang Lancar) * P(11 15 Tahun\Kurang Lancar). P(Semesteran\Kurang
Lancar) * P(Kurang Lancar)
P(Laki Laki\Tidak Lancar) * P(30 40 Tahun\Tidak Lancar) * P(Kawin\Tidak
Lancar) * P(Wiraswasta\Tidak Lancar) * P(25 50 Juta\Tidak Lancar) * P(11
15 Tahun\Tidak Lancar) * P(Semesteran\Tidak Lancar). P(Tidak Lancar)
4. Bandingkan hasil class Lancar, Kurang Lancar dan Tidak Lancar Dari
hasil diatas, terlihat bahwa nilai probabilitas tertinggi ada padakelas
(P|Lancar) sehingga dapat disimpulkan bahwa status calon nasabah
tersebut masuk dalam klasifikasi "lancar".
IMPLEMENTASI SISTEM
Setelah melalui tahapan perancangan sistem, database selanjutnya adalah
implementasi sistem. Implementasi sistem merupakan bagian akhir daripada
perancangan sistem yang telah dibangun dimana tahapan ini juga
merupakan testing program.
a. Form Login
Form login berfungsi sebagai form keamanan, form ini merupakan form
untuk masuk ke program yang akan diakses dengan cara mengisikan username
dan password. Jika hak akses telah diberikan oleh sistem maka user
dapat mengakses menu utama aplikasi. Adapun tampilan form login dapat
dilihat pada gambar berikut :
b. Form Menu Utama
Form menu utama berfungsi untuk mengakses segala perintah yang terdapat
dalam aplikasi. Form tersebut dapat diakses setelah user melakukan
login. Pada form ini terdapat beberapa menu yaitu Menu File Data yang
berisi submenu data nasabah (data training) dan cek persentase
kelancaran (data testing), Menu Admin, Laporan dan Exit. Adapun
tampilannya dapat dilihat pada gambar berikut :
c. Form Data Nasabah
Form ini dapat ditampilkan melalui menu form utama > file data >
data nasabah. Form ini berfungsi untuk mencari data nasabah, menambah,
menghapus, menyimpan data nasabah. Data nasabah inilah yang selanjutnya
digunakan untuk data pelatihan (training) untuk proses klasifikasi.
Adapun tampilannya dapat dilihat pada gambar berikut :
d. Form Cek Persentasi Kelancaran
Untuk memanggil form cek persentasi kelancaran dapat dilakukan melalui
menu form utama > file data > cek persentasi kelancaran. Form ini
adalah form data testing yang digunakan untuk mengecek tingkat
kelancaran calon nasabah. Adapun tampilannya dapat dilihat pada gambar
berikut :
e. Form Hasil Input Data Calon Nasabah
Pada form ini menampilkan hasil output dari penginputan data calon
nasabah yang telah di proses dengan algoritma Naive Bayes. Proses
klasifikasi dipengaruhi oleh atribut atribut terpilih yang mendukung
untuk
menentukan kelas nasabah lancar, kurang lancar dan tidak lancar. Adapun tampilannya dapat dilihat pada gambar berikut :
f. Form Laporan Akhir
Laporan akhir merupakan output dari proses klasifikasi data. Laporan ini
menampilkan hasil akhir dari proses yang telah dilakukan yaitu output
dari penginputan data calon nasabah yang telah di proses dengan
algoritma Naive Bayes. Pada menu laporan juga terdapat submenu laporan
berdasarkan klasifikasi nasabah lancar, kurang lancar atau tidak lancar.
Adapun tampilan form laporan dapat dilihat pada gambar berikut :
7. Kesimpulan
Berdasarkan hasil pembahasan maka penulis dapat mengambil beberapa kesimpulan antara lain :
1. Sistem klasifikasi data nasabah ini digunakan untuk menampilkan
informasi klasifikasi lancar, kurang lancar atau tidak lancarnya calon
nasabah dalam membayar premi asuransi dengan menggunakan algoritma Naive
Bayes.
2. Dengan adanya sistem ini maka mempermudah pihak asuransi dalam
memperkirakan nasabah yang bergabung, sehingga perusahaan bisa mengambil
keputusan untuk menerima atau menolak calon nasabah tersebut.
3. Algoritma Naive Bayes di dukung oleh ilmu Probabilistik dan ilmu
statistika khususnya dalam penggunaan data petunjuk untuk mendukung
keputusan pengklasifikasian. Pada algoritma Naive Bayes, semua atribut
akan memberikan kontribusinya dalam pengambilan keputusan, dengan bobot
atribut yang sama penting dan setiap atribut saling bebas satu sama
lain.
4. Variabel penentu yang digunakan dalam penelitian ini adalah jenis
kelamin, usia, status, pekerjaan, penghasilan per tahun, masa pembayaran
asuransi, dan cara pembayaran asuransi.
DAFTAR PUSTAKA
Budi, Santoso, 2007, Data Mining : Teknik Pemanfaatan Data untuk Keperluan Bisnis, Graha Ilmu, Yogyakarta
Frieyadie, 2010, Mudah Belajar Pemograman Database MySql dengan Microsoft Visual Basic 6.0, Andi, Yogyakarta
Hermawati, Fajar Astuti, 2013, Data Mining, Andi, Yogyakarta Jogiyanto,
H.M, 2000, Analisis dan Desain Sistem Informasi, Andi, Yogyakarta
Kusumadewi, Sri, 2009, Klasifikasi Status Gizi Menggunakan Algoritma
Naive Bayes Classification, Jurusan Teknik Informatika, universitas
Islam Indonesia
Mulyanto, Agus, 2009, Sistem Informasi Konsep dan Aplikasi, Cetakan I, Pustaka Pelajar, Yogyakarta
Natalius, Samuel, 2010, Metode Naive Bayes Classifier dan Penggunaannya
Pada Klasifikasi Dokumen, Program Studi Sistem dan teknologi Informasi,
Sekolah Teknik Elektro dan Informatika, Institut Teknologi Bandung
Prakoso, Djoko, 1994, Asuransi Indonesia, Dahara Prize, Semarang
Rahadian, Hadi, 2004, Membuat Laporan dengan Crystal Report 8.5 dan Visual Basic 6.0, Cetakan 2, Elex Media Komputindo, Jakarta
Rokhmah, Dewi Pyriana, 2011, Klasifikasi Data Mengggunakan Metode
KNearest Neighbour dan Teorema Bayes, Program Studi Teknik Informatika,
Universitas Brawijaya Malang
Supardi, Yuniar, 2006, Microsoft Visual Basic 6.0, Elex Media Komputindo, Jakarta
Susanto, Sani, Ph.D, Suryadi, Dedy, 2010, Pengantar Data Mining: Menggali Pengetahuan dari Bongkahan Data, Andi, Yogyakarta
http://www.scribd.com/ doc /45017830 /Algoritma Data - Miningdesicion-
tree-naive bayes-dll di unduh, 5 Maret 2013, 10:00 Wib
http://www.scribd.com/doc /55713517/Metode - Bayes di unduh 5 Maret
2013, 10:10 Wib
Pendapat saya tentang teorema di atas adalah : Penerapan
Algoritma Naive Bayes untuk mengklasifikasi data nasabah asuransi
merupakan hal yang menarik untuk diketahui. Teorema bayes merupakan
teorema dengan dua penafsiran yang berbeda pada dasarnya, sedangkan Naive merupakan
cara pengklasifikasian dengan berdasarkan asumsi (naif). kedua hal ini
yang kemudian digabungkan menjadi satu sehingga membuat teorema Naive Bayes yang memungkinkan kita mengklasifikasikan suatu
kejadian tertentu dari suatu kelompok tidak berhubungan dengan
kehadiran atau ketiadaan dari kejadian lainnya. Maksudnya perusahaan
asuransi pastilah memiliki data yang sangat banyak, permasalahan
yang sering timbul dalam perusahaan asuransi adalah banyaknya nasabah
yang menunggak dalam membayar premi, sehingga diperlukan sebuah sistem
yang dapat mengklasifikasikan nasabah ke dalam kelompok-kelompok
tertentu, misalkan seperti yang telah dijelaskan dalam jurnal di atas
adalah kelompok lancar, kurang lancar dan tidak lancar ketiga kelompok
di atas sangatlah berbeda, tujuannya adalah agar pihak asuransi bisa
mengetahui dengan jelas dan pasti pengklasifikasian dari para nasabah
sehingga dari pengklasifikasi itulah pihak asuransi dapat mencari jalan
keluar atau solusi yang tepat. Hanya kekurangan dari penggunaan Naive Bayes ini
adalah tidak berlaku jika probabilitas kondisionalnya adalah nol dan
apabila nol prediksi atau asumsinya akan bernilai nol juga. Demikianlah
pendapat saya mengenai jurnal di atas.



