Feature Selection Techniques dalam Machine Learning

11 March 2026 Updated: 11 March 2026

Feature selection adalah proses memilih hanya fitur (variabel input) yang paling penting untuk digunakan dalam model machine learning. Tujuannya adalah agar model bekerja lebih baik, mengurangi noise pada data, dan membuat hasil model lebih mudah dipahami.

Feature selection membantu untuk:

Menghapus fitur yang tidak relevan atau redundant

Meningkatkan akurasi model dan mengurangi overfitting

Mempercepat proses pelatihan model

Membuat model lebih sederhana dan mudah diinterpretasikan

Mengapa Feature Selection Diperlukan

Feature selection sangat penting dalam data science dan machine learning karena beberapa alasan berikut:

1. Meningkatkan Akurasi

Model akan belajar lebih baik jika dilatih hanya dengan fitur yang benar-benar penting.

2. Mempercepat Training

Semakin sedikit fitur yang digunakan, maka waktu komputasi menjadi lebih cepat.

3. Memudahkan Interpretasi

Jika jumlah fitur lebih sedikit, maka perilaku model lebih mudah dipahami.

4. Menghindari Curse of Dimensionality

Jika jumlah fitur terlalu banyak, kompleksitas model meningkat. Feature selection membantu mengurangi dimensi data sehingga model lebih stabil.

Jenis-Jenis Metode Feature Selection

Metode feature selection biasanya dibagi menjadi tiga kategori utama. Masing-masing memiliki kelebihan dan kekurangan tergantung pada kebutuhan analisis.

1. Filter Methods

Filter methods mengevaluasi setiap fitur secara independen terhadap target variable.

Fitur yang memiliki korelasi tinggi dengan target akan dipilih karena dianggap memiliki hubungan yang kuat untuk membantu prediksi.

Metode ini biasanya digunakan pada tahap preprocessing data untuk menghapus fitur yang tidak relevan berdasarkan uji statistik atau ukuran korelasi.

Teknik Filter yang Umum Digunakan

Information Gain
Mengukur seberapa besar pengurangan entropy ketika suatu fitur digunakan.

Chi-Square Test
Menguji hubungan antara fitur kategorikal dengan target.

Fisher Score
Memberi peringkat fitur berdasarkan kemampuan memisahkan kelas data.

Pearson Correlation Coefficient
Mengukur hubungan linear antara dua variabel numerik.

Variance Threshold
Menghapus fitur yang memiliki variansi sangat kecil.

Mean Absolute Difference
Mirip dengan variance threshold tetapi menggunakan selisih absolut.

Dispersion Ratio
Rasio antara mean aritmatika dan mean geometrik. Nilai tinggi menunjukkan fitur yang lebih informatif.

Kelebihan

Cepat dan efisien untuk dataset besar

Mudah diimplementasikan

Tidak tergantung model sehingga bisa digunakan dengan berbagai algoritma machine learning

Kekurangan

Tidak mempertimbangkan interaksi antar fitur

Harus memilih metrik statistik yang tepat agar hasil optimal

2. Wrapper Methods

Wrapper methods menggunakan model machine learning untuk mengevaluasi kombinasi fitur yang berbeda.

Metode ini mencoba berbagai kombinasi subset fitur, lalu melihat bagaimana pengaruhnya terhadap performa model.

Proses ini biasanya berhenti ketika:

Performa model mulai menurun

Jumlah fitur yang diinginkan sudah tercapai

Teknik Wrapper yang Umum Digunakan

Forward Selection
Mulai dari tanpa fitur, kemudian menambahkan fitur satu per satu.

Backward Elimination
Mulai dari semua fitur, lalu menghapus fitur yang paling tidak penting.

Recursive Feature Elimination (RFE)
Menghapus fitur yang paling tidak penting secara bertahap.

Kelebihan

Lebih optimal untuk model tertentu

Bisa menghasilkan performa lebih baik dibanding metode filter

Kekurangan

Sangat mahal secara komputasi

Berisiko overfitting jika terlalu menyesuaikan dengan satu model

3. Embedded Methods

Embedded methods melakukan seleksi fitur selama proses training model berlangsung.

Metode ini menggabungkan kelebihan filter dan wrapper karena seleksi fitur terjadi langsung di dalam proses pembelajaran model.

Teknik Embedded yang Umum Digunakan

L1 Regularization (Lasso)
Mempertahankan fitur yang memiliki koefisien tidak nol.

Decision Tree dan Random Forest
Memilih fitur berdasarkan pengurangan impurity.

Gradient Boosting
Memilih fitur yang paling mampu menurunkan error prediksi.

Kelebihan

Efisien dan cukup akurat

Seleksi fitur dilakukan langsung oleh model

Kekurangan

Interpretasi lebih sulit

Tidak semua algoritma machine learning mendukung metode ini

Cara Memilih Metode Feature Selection yang Tepat

Pemilihan metode feature selection tergantung pada beberapa faktor:

1. Ukuran Dataset

Dataset besar → Filter methods lebih cepat

Dataset kecil → Wrapper methods bisa digunakan

2. Jenis Model

Beberapa model seperti Decision Tree atau Random Forest sudah memiliki seleksi fitur bawaan.

3. Interpretasi Model

Jika ingin memahami alasan pemilihan fitur, maka filter methods lebih mudah dijelaskan.

4. Sumber Daya Komputasi

Wrapper methods membutuhkan waktu komputasi yang lebih besar, sehingga perlu mempertimbangkan kapasitas komputer.

Kesimpulan

Feature selection membantu:

meningkatkan performa model

mengurangi kompleksitas data

mempercepat proses training

membuat model lebih mudah dipahami

Dengan memilih metode feature selection yang tepat, kita dapat menghasilkan model machine learning yang lebih efisien dan akurat.

D'Win

Bagikan di Facebook Tweet Bagikan di WhatsApp

ARTIKEL LAINNYA

Feature Selection Techniques dalam Machine Learning

Mengapa Feature Selection Diperlukan

1. Meningkatkan Akurasi

2. Mempercepat Training

3. Memudahkan Interpretasi

4. Menghindari Curse of Dimensionality

Jenis-Jenis Metode Feature Selection

Teknik Filter yang Umum Digunakan

Kelebihan

Kekurangan

Teknik Wrapper yang Umum Digunakan

Kelebihan

Kekurangan

Teknik Embedded yang Umum Digunakan

Kelebihan

Kekurangan

1. Ukuran Dataset

2. Jenis Model

3. Interpretasi Model

4. Sumber Daya Komputasi

Memahami Overfitting dan Underfitting dalam Machine Learning

K-Nearest Neighbor (KNN)

Traditional AI vs Supervised Machine Learning vs Deep Learning

Siamese Neural Network

Apa itu vector embedding?

Cosine dan Ecludean Distance

Metode Weight Product

Catatan Klasifikasi

Jenis Attribut Data Dalam Data Mining

Pengantar Data Mining