Data Mining

DATA MINING

Definisi Data Mining adalah

1. Mencari informasi yang berharga di dalam suatu data yang berjumlah

besar.

2. Eksplorasi dan analisa secara otomatis atau semiotomatis dari suatu

kuantitas data yang besar yang bertugas untuk mencari pola dan

aturan yang berarti.

KDD Process

Knowledge Discovery in Databases (KDD) is a non-trivial process of

identifying valid, novel, potentially useful, and ultimately understandable

patterns in data.

BUSSINESS CYCLE OF DATA MINING

Alasan-alasan menggunakan Data Mining

1. Karena data dikumpulkan dan disimpan dengan kecepatan yang

sangat besar (Gbyte/hour).

− Sensor jarak jauh yang menggunakan satelit.

− Telescope scanning the skies.

− Micro arrays generating gene expression data.

− Scientific simulations generating terabytes of data

2. teknik tradisional yang tidak layak lagi

3. Digunakan untuk mereduksi data atau data dibagi-bagi.

− Catalog, klasifikasi, pembagian data.

− Membantu para ahli sains dalam menghipotesa.

Asal mula Data Mining :

1. Penggambaran ide-ide dari Mesin Buatan atau Artificial Intelligent,

pola, statistik, sistem database dan penggambaran data.

2. Tehnik tradisional mungkin tidak digunakan karena

− Banyaknya data.

− Tingginya dimensi dari suatu data.

− Berbagai macam jenis data.

Tugas Data Mining dibagi menjadi dua metode yaitu:

1. Metoda prediksi

Menggunakan beberapa variable untuk memperkirakan suatu nilai

yang tidak diketahui dari variable yang lain.

2. Metoda deskripsi

Mencari suatu pola yang dapat ditafsirkan manusia sehingga data

dapat digambarkan atau diuraikan.

Jenis-jenis Tugas Data Mining

1. Classification [Predictive]

2. Clustering [Descriptive]

3. Association Rule Discovery [Descriptive]

4. Regression [Predictive]

5. Deviation Detection [Predictive]

Definisi Klasifikasi

1. Memberikan kumpulan record-record (training set)

− Setiap record berisi sifat-sifat tertentu (attributes), salah satu

dari attributes adalah kelas (class).

2. Mencari sebuah contoh atau model untuk class attribute sebagai fungsi

dari suatu nilai dari attribute yang lain.

3. Tujuannya adalah record2 yang tidak kelihatan/ previously unseen

record ditunjuk menjadi suatu class setepat mungkin.

Klasifikasi pada Aplikasi 1:

Direct Marketing

Goal:

Reduce cost of mailing by targeting a set of consumers likely to buy a new

cell-phone product.

Pendekatannya adalah

− Menggunakan data untuk produk yang sama yang telah dikenalkan

terlebih dahulu.

− Mengetahui pembeli mana yang memutuskan untuk membeli dan

yang tidak. Keputusan ini (buy, don’t buy) membentuk suatu class

attributes.

− Mengumpulkan bermacam-macam demographic, gaya hidup dan

interaksi perusahaan dan informasi yang berhubungan dengan para

pelanggan.

Contohnya yaitu di mana mereka tinggal, berapa besar

pendapatannya dan lain-lain.

− Use this information as input attributes to learn a classifier model.

Klasifikasi pada Aplikasi 2:

Fraud Detection

Tujuannya adalah untuk memprediksi atau memperkirakan kasus

penggelapan transaksi credit card.

Pendekatannya adalah

− Dengan menggunakan informasi transaksi dan informasi dari kartu

sebagai atributnya.

Contohnya

Kapan seorang pelanggan membeli, apa yang ia beli, seberapa sering

ia membayar tepat waktu.

− Label past transactions. This forms the class attributes.

− Learn a model for the class of the transactions.

− Menggunakan model ini untuk mendeteksi penggelapan/fraud dengan

mengobservsi/meninjau perhitungan transaksi credit card.

Klasifikasi pada Aplikasi 3:

Customer Attrition/Churn

Tujuannya adalah

To predict whether a customer is likely to be lost to a competitor.

Pendekatannya adalah

− Menggunakan record yang mendetail dari suatu transaksi dari tiap

pelanggan untuk mencari attributnya.

− Memberi label pada pelanggan sebagai pelanggan setia atau yang bukan

langganan.

− Find a model for loyalty.

Klasifikasi pada Aplikasi 4:

Sky Survey Cataloging

Tujuannya adalah

Memprediksi class (bintang atau galaksi) dari objek langit, khususnya

menggambarkan yang lemah, berdasarkan gambar yang diambil

menggunakan teleskop (dari Palomar Observatory).

Pendekatannya adalah

− Membagi gambar.

− Mengukur attribut gambar.

− Model dari suatu kelas berdasarkan dari penggambaran ini.

Definisi Clustering

Given a set of data points, each having a set of attributes, and a similarity

measure among them, find clusters such that.

− Point-point data di dalam satu cluster hampir sama dengan yang lain.

− Point-point data di dalam cluster yang berbeda kurang mirip dengan yang

lain.

Persamaan Ukuran

- Euclidean distance if attributes are continuous.

- Other problem-specific Measures.

ILLUSTRATING CLUSTERING

Clustering Application 1:

Market segmentation:

Tujuannya adalah

Subdivide a market into distinct subsets of customers where any subset may

conceivably be selected as a market target to be reached with a distinct

marketing mix.

Pendekatannya adalah

− Mengumpulkan attribute-attribut yang berbeda dari pelanggan

berdasarkan informasi yang berhubungan dengan geographical dan gaya

hidup pelanggan.

− Mencari cluster atau kumpulan dari pelanggan-pelanggan yang serupa.

− Mengukur kualitas clustering dengan memperhatikan atau mengamati pola

pembelian dari para pelanggan di dalam cluster yang sama dengan cluster

yang berbeda.

Clustering pada Aplikasi 2:

Document Clustering

Tujuannya adalah

Untuk mencari kelompok dari dokumen dimana kelompok-kelompok itu

mirip satu dengan yang lain berdasarkan dari term yang ada.

Pendekatannya adalah

Untuk mengidentifikasi atau mempersamakan batas waktu di dalam tiap

dokumen. Bentuk ukuran yang hampir sama berdasarkan frekuensi dari

term yang berbeda digunakan sebagai cluster.

iPK

Cari Blog Ini

Data Mining

Label

Komentar

Postingan populer dari blog ini

Pelantikan Taruna SMK N 2 Sragen Angkatan ke-3

Free Game Downloads Angry Birds Go! 1.6.1 APK Terbaru 2015 for Android

Tutorial Membuat Aplikasi Perpustakaan Berbasis Web dengan PHP & MySql