1. Definisi Data Mining
Data mining (Connolly dan Begg, 2010) adalah suatu proses ekstraksi atau penggalian data yang belum diketahui sebelumnya, namun dapat dipahami dan berguna dari database yang besar serta digunakan untuk membuat suatu keputusan bisnis yang sangat penting.
Data mining (Segall et.all, 2008) biasa juga disebut dengan “Data atau knowledge discovery” atau menemukan pola tersembunyi pada data. Data mining adalah proses dari menganalisa data dari prespektif yang berbeda dan menyimpulkannya ke dalam informasi yang berguna.
Data mining (Han dan Kamber, 2006 : 5) didefinisikan sebagai proses mengekstrak atau menambang pengetahuan yang dibutuhkan dari sejumlah data besar.
Pada prosesnya data mining akan mengekstrak informasi yang berharga dengan cara menganalisis adanya pola-pola ataupun hubungan keterkaitan tertentu dari data-data yang berukuran besar. Data mining berkaitan dengan bidang ilmu-ilmu lain, seperti Database System, Data Warehousing, Statistic, Machine Learning, Information Retrieval, dan Komputasi Tingkat Tinggi. Selain itu data mining didukung oleh ilmu lain seperti Neural Network, Pengenalan Pola, Spatial Data Analysis, Image Database, Signal Processing.
Beberapa survey tentang proses pemodelan dan metodologi menyatakan bahwa, “Data mining digunakan sebagai penunjuk, dimana data mining menyajikan intisari atas sejarah, deskripsi dan sebagai standar petunjuk mengenai masa depan dari sebuah proses model data mining”(Mariscal, Marba’n dan Ferna’ndes, 2010)
Karakteristik data mining sebagai berikut:
a. Data mining berhubungan dengan penemuan sesuatu yang tersembunyi dan pola data tertentu yang tidak diketahui sebelumnya.
b. Data mining biasa menggunakan data yang sangat besar. Biasanya data yang besar digunakan untuk membuat hasil lebih dapat dipercaya.
c. Data mining berguna untuk membuat keputusan kritis.
Berdasarkan beberapa pengertian tersebut dapat ditarik kesimpulan bahwa Data Mining adalah suatu teknik menggali informasi berharga yang terpendam atau tersembunyi pada suatu koleksi data (database) yang sangat besar sehingga ditemukan suatu pola yang menarik yang sebelumnya tidak diketahui.
2. Fungsi Data Mining
Teknik – teknik data mining telah digunakan untuk menemukan pola yang tersembunyi dan meprediksi tren masa depan. Dan keuntungan kompetitif dari data mining termasuk dengan meningkatnya pendapatan, berkurangnya pengeluaran, dan kemampuan pemasaran yang meningkat. (Pujari et. All, 2012)
Data mining dibagi menjadi dua kategori utama (Han dan Kamber, 2006 : 21- 29) yaitu:
A. Prediktif
Tujuan dari tugas prediktif adalah untuk memprediksi nilai dari atribut tertentu berdasarkan pada nilai atribut-atribut lain. Atribut yang diprediksi umumnya dikenal sebagai target atau variable tak bebas, sedangkan atribut-atribut yang digunakan untuk membuat prediksi dikenal sebagai explanatory atau variable bebas.
B. Deskriptif
Tujuan dari tugas deskriptif adalah untuk menurunkan pola-pola (korelasi, trend, cluster, teritori, dan anomali) yang meringkas hubungan yang pokok dalam data. Tugas data mining deskriptif sering merupakan penyelidikan dan seringkali memerlukan teknik post-processing untuk validasi dan penjelasan hasil.
Fungsi dari data mining juga ada dalam dunia kesehatan, dimana data mining telah digunakan untuk untuk meningkatkan diagnosis dan pengobatan atau lebih mengerti perilaku dari pasien. (Sandra et all, 2009)
Data mining juga memiliki beberapa fungsionalitas yaitu Concept/Class Description: Characterization and Discrimination, Mining Frequent Patterns, Associations, and Correlations, Classification and Prediction, Cluster Analysis, Outlier analysis, dan Evolution analysis. (Han dan Kamber, 2006 : 21 – 27)
Berikut adalah penjelasan dari masing-masing fungsi diatas:
1. Concept/Class Description: Characterization and Discrimination
Data characterization adalah ringkasan dari semua karakteristik atau fitur dari data yang telah diperoleh dari target kelas. Data yang sesuai dengan kelas yang telah ditentukan oleh pengguna biasanya dikumpulkan di dalam database. Misalnya, untuk mempelajari karakteristik produk perangkat lunak dimana pada tahun lalu seluruh penjualan telah meningkat sebesar 10%, data yang terkait dengan produk-produk tersebut dapat dikumpulkan dengan menjalankan sebuah query SQL. Sedangkan, data discrimination adalah perbandingan antara fitur umum objek data target kelas dengan fitur umum objek dari satu atau satu set kelas lainnya. target diambil melalui query database. Misalnya, pengguna mungkin ingin membandingkan fitur umum dari produk perangkat lunak yang pada tahun lalu penjualannya meningkat sebesar 10% tetapi selama periode yang sama seluruh penjualan juga menurun setidaknya 30%.
2. Mining Frequent Patterns, Associations, and Correlations
Frequent Patterns adalah pola yang sering terjadi di dalam data. Ada banyak jenis dari frequent patterns, termasuk di dalamnya pola, sekelompok item set, sub-sequence, dan sub-struktur. Sebuah frequent patterns biasanya mengacu pada satu set item yang sering muncul bersama-sama dalam suatu kumpulan data transaksional, misalnya seperti susu dan roti.
Associations Analysis adalah pencarian aturan-aturan asosiasi yang menunjukan kondisi-kondisi nilai atribut yang sering terjadi bersama-sama dalam sekumpulan data. Analisis asosiasi sering digunakan untuk menganalisa Market Basket Analysis dan data transaksi.
3. Classification and Prediction
Klasifikasi adalah proses untuk menemukan model atau fungsi yang menggambarkan dan membedakan kelas data atau konsep dengan tujuan memprediksikan kelas untuk data yang tidak diketahui kelasnya. Model yang diturunkan didasarkan pada analisis dari training data (yaitu objek data yang memiliki label kelas yang diketahui). Model yang diturunkan dapat direpresentasikan dalam berbagai bentuk seperti If-then klasifikasi, decision tree, dan sebagainya.
Teknik classification bekerja dengan mengelompokkan data berdasarkan data training dan nilai atribut klasifikasi. Aturan pengelompokan tersebut akan digunakan untuk klasifikasi data baru ke dalam kelompok yang ada. Classification dapat direpresentasikan dalam bentuk pohon keputusan (decision tree). Setiap node dalam pohon keputusan menyatakan suatu tes terhadap atribut dataset, sedangkan setiap cabang menyatakan hasil dari tes tersebut. Pohon keputusan yang terbentuk dapat diterjemahkan menjadi sekumpulan aturan dalam bentuk IF condition THEN outcome. (Mewati Ayub, 2007 : 7).
Dalam banyak kasus, pengguna ingin memprediksikan nilai-nilai data yang tidak tersedia atau hilang (bukan label dari kelas). Dalam kasus ini nilai data yang akan diprediksi merupakan data numeric. Disamping itu, prediksi lebih menekankan pada identifikasi trend dari distribusi berdasarkan data yang tersedia.
4. Cluster Analysis
Cluster adalah kumpulan objek data yang mirip satu sama lain dalam kelompok yang sama dan berbeda dengan objek data di kelompok lain. Sedangkan, Clustering atau Analisis Custer adalah proses pengelompokkan satu set benda-benda fisik atau abstrak kedalam kelas objek yang sama. Tujuannya adalah untuk menghasilkan pengelompokan objek yang mirip satu sama lain dalam kelompok-kelompok. Semakin besar kemiripan objek dalam suatu cluster dan semakin besar perbedaan tiap cluster maka kualitas analisis cluster semakin baik.
1. Outlier analysis
Outlier merupakan objek data yang tidak mengikuti perilaku umum dari data. Outlier dianggap sebagai noise atau pengecualian. Analisis data outlier dapat dianggap sebagai noise atau pengecualian. Analisis data outlier dinamakan Outlier Mining. Teknik ini berguna dalam fraud detection dan rare events analysis.
2. Evolution analysis
Analisis evolusi data menjelaskan dan memodelkan trend dari objek yang memiliki perilaku yang berubah setiap waktu. Teknik ini dapat meliputi karakterisasi, diskriminasi, asosiasi, klasifikasi, atau clustering dari data yang berkaitan dengan waktu.
3. Tujuan Data Mining
Tujuan dari data mining (Hoffer, Prescott, dan McFadden, 2007) adalah:
1. Explanatory
Untuk menjelaskan beberapa kondisi penelitian, seperti mengapa penjualan truk pick-up meningkat di Colorado.
2. Confirmatory
Untuk mempertegas hipotesis, seperti halnya dua kali pendapatan keluarga lebih suka dipakai untuk membeli peralatan keluarga dibandingkan dengan satu kali pendapatan keluarga.
3. Exploratory
Untuk menganalisa data yang memiliki hubungan yang baru. Misalnya, pola apa yang cocok untuk kasus penggelapan kartu kredit.
Proses Data Mining
Tujuan dari data mining itu sendiri adalah mencari data pada sebuah database / data warehouse, yang dapat meramalkan prosepek masa depan . Jika anda belum memahami konsep data mining klik disini.. Jika anda telah mengerti , tentunya anda akan bertanya bagaimanakah proses kerja data mining itu dan cara kerjanya ?. Jawabannya dapat anda dapatkan di Blog kami.
Proses Data Mining

Karena DM adalah suatu rangkaian proses, DM dapat dibagi menjadi beberapa tahap yang diilustrasikan pada gambar diatas :
1. Pembersihan data (untuk membuang data yang tidak konsisten dan noise)
2. Integrasi data (penggabungan data dari beberapa sumber)
3. Transformasi data (data diubah menjadi bentuk yang sesuai untuk di-mining)
4. Aplikasi teknik DM
5. Evaluasi pola yang ditemukan (untuk menemukan yang menarik/bernilai)
6. Presentasi pengetahuan (dengan teknik visualisasi)
2. Integrasi data (penggabungan data dari beberapa sumber)
3. Transformasi data (data diubah menjadi bentuk yang sesuai untuk di-mining)
4. Aplikasi teknik DM
5. Evaluasi pola yang ditemukan (untuk menemukan yang menarik/bernilai)
6. Presentasi pengetahuan (dengan teknik visualisasi)
Tahap-tahap diatas, bersifat interaktif di mana pemakai terlibat langsung atau dengan perantaraan knowledge base.
Knowledge Discovery and Data Mining(KDD) adalah proses yang dibantu oleh komputer untuk menggali dan menganalisis sejumlah besar himpunan data dan mengekstrak informasi dan pengetahuan yang berguna. Data mining tools memperkirakan perilaku dan tren masa depan, memungkinkan bisnis untuk membuat keputusan yang proaktif dan berdasarkan pengetahuan. Data mining tools mampu menjawab permasalahan bisnis yang secara tradisional terlalu lama untuk diselesaikan. Data mining tools menjelajah database untuk mencari pola tersembunyi, menemukan infomasi yang prediktif yang mungkin dilewatkan para pakar karena berada di luar ekspektasi mereka.
Proses dalam KDD adalah proses yang digambarkan pada dan terdiri dari rangkaian proses iteratif sebagai berikut:

1. Data cleaning, menghilangkan noise dan data yang inkonsisten.
2. Data integration, menggabungkan data dari berbagai sumber data yang berbeda
3. Data selection, mengambil data yang relevan dengan tugas analisis dari database
4. Data transformation, Mentransformasi atau menggabungkan data ke dalam bentuk yang sesuai untuk penggalian lewat operasi summary atau aggregation.
5. Data mining, proses esensial untuk mengekstrak pola dari data dengan metode cerdas.
6. Pattern evaluation, mengidentifikasikan pola yang menarik dan merepresentasikan pengetahuan berdasarkan interestingness measures.
7. Knowledge presentation, penyajian pengetahuan yang digali kepada pengguna dengan menggunakan visualisasi dan teknik representasi pengetahuan.
2. Data integration, menggabungkan data dari berbagai sumber data yang berbeda
3. Data selection, mengambil data yang relevan dengan tugas analisis dari database
4. Data transformation, Mentransformasi atau menggabungkan data ke dalam bentuk yang sesuai untuk penggalian lewat operasi summary atau aggregation.
5. Data mining, proses esensial untuk mengekstrak pola dari data dengan metode cerdas.
6. Pattern evaluation, mengidentifikasikan pola yang menarik dan merepresentasikan pengetahuan berdasarkan interestingness measures.
7. Knowledge presentation, penyajian pengetahuan yang digali kepada pengguna dengan menggunakan visualisasi dan teknik representasi pengetahuan.
IMPLEMENTASI DATA MINING
Sebagai cabang ilmu baru di bidang komputer (lihat artikel sebelumnya berjudul ‘Data Mining’) cukup banyak penerapan yang dapat dilakukann oleh Data Mining. Apalagi ditunjang ke-kaya-an dan ke-anekaragam-an berbagai bidang ilmu (artificial intelligence, database, statistik, pemodelan matematika, pengolahan citra dsb.) membuat penerapan data miningmenjadi makin luas. Di bidang apa saja penerapan data mining dapat dilakukan? Artikel singkat ini berusaha memberikan jawabannya.
Analisa Pasar dan Manajemen
Untuk analisa pasar, banyak sekali sumber data yang dapat digunakan seperti transaksi kartu kredit, kartu anggota club tertentu, kupon diskon, keluhan pembeli, ditambah dengan studi tentang gaya hidup publik.
Beberapa solusi yang bisa diselesaikan dengan data mining diantaranya:
- Menembak target pasar
Data mining dapat melakukan pengelompokan (clustering) dari model-model pembeli dan melakukan klasifikasi terhadap setiap pembeli sesuai dengan karakteristik yang diinginkan seperti kesukaan yang sama, tingkat penghasilan yang sama, kebiasaan membeli dan karakteristik lainnya.
- Melihat pola beli pemakai dari waktu ke waktu
Data mining dapat digunakan untuk melihat pola beli seseorang dari waktu ke waktu. Sebagai contoh, ketika seseorang menikah bisa saja dia kemudian memutuskan pindah dari single account ke joint account(rekening bersama) dan kemudian setelah itu pola beli-nya berbeda dengan ketika dia masih bujangan.
- Cross-Market Analysis
Kita dapat memanfaatkan data mining untuk melihat hubungan antara penjualan satu produk dengan produk lainnya. Berikut ini saya sajikan beberapa contoh:
- Cari pola penjualan Coca Cola sedemikian rupa sehingga kita dapat mengetahui barang apa sajakah yang harus kita sediakan untuk meningkatkan penjualan Coca Cola?
- Cari pola penjualan IndoMie sedemikian rupa sehingga kita dapat mengetahui barang apa saja yang juga dibeli oleh pembeli IndoMie. Dengan demikian kita bisa mengetahui dampak jika kita tidak lagi menjual IndoMie.
- Cari pola penjualan
- Profil Customer
- Data mining dapat membantu Anda untuk melihat profilcustomer/pembeli/nasabah sehingga kita dapat mengetahui kelompokcustomer tertentu suka membeli produk apa saja.
- Identifikasi Kebutuhan Customer
Anda dapat mengidentifikasi produk-produk apa saja yang terbaik untuk tiap kelompok customer dan menyusun faktor-faktor apa saja yang kira-kira dapat menarik customer baru untuk bergabung/membeli.
- Menilai Loyalitas Customer
VISA International Spanyol menggunakan data mining untuk melihat kesuksesan program-program customer loyalty mereka. Anda bisa lihat di www.visa.es/ingles/info/300300.html
- Informasi Summary
Anda juga dapat memanfaatkan data mining untuk membuat laporansummary yang bersifat multi-dimensi dan dilengkapi dengan informasi statistik lainnya.
sumber :
1. http://globallavebookx.blogspot.co.id/2015/01/pengertian-definisi-dan-fungsi-data.html
2. https://pobersonaibaho.wordpress.com/2011/05/15/definisi-data-mining-tugas-utama-data-mining-proses-dan-cara-kerja-data-miningmetodologi-data-mining/
3. https://eliamogot.wordpress.com/2010/06/05/data-mining/
Tidak ada komentar:
Posting Komentar