Berikut ini adalah contoh judul dan kasus untuk setiap jenis teknik characteristic engineering dalam machine studying:
- Scalling
- Judul : Normalisasi Information Berat Badan untuk Prediksi Kesehatan.
- Kasus : Klinik ingin menormalisasi knowledge berat badan pasien untuk mannequin prediksi kesehatan agar fitur berada pada skala yang sama.
Implementasi
from sklearn.preprocessing import MinMaxScaler
import pandas as pdknowledge = pd.DataFrame({'Weight': [50, 60, 70, 80, 90]})
scaler = MinMaxScaler()
knowledge['ScaledWeight'] = scaler.fit_transform(knowledge[['Weight']])
print(knowledge)
2. Grouping
- Judul : Analisis Penjualan Bulanan Berdasarkan Kategori Produk.
- Kasus : Toko on-line ingin menganalisis whole penjualan bulanan berdasarkan kategori produk.
Implementasi
import pandas as pdknowledge = pd.DataFrame({
'Date': pd.date_range(begin='1/1/2023', durations=10, freq='D'),
'Class': ['Electronics', 'Fashion', 'Electronics', 'Food', 'Fashion', 'Electronics', 'Food', 'Electronics', 'Fashion', 'Food'],
'Gross sales': [100, 200, 150, 300, 250, 180, 320, 170, 260, 290]
})
knowledge['Month'] = knowledge['Date'].dt.month
grouped_data = knowledge.groupby(['Month', 'Category']).sum()
print(grouped_data)
3. Log Remodel
- Judul : Mengurangi Skewness pada Information Pendapatan dengan Log Remodel.
- Kasus : Perusahaan ingin mengurangi skewness pada knowledge pendapatan untuk mannequin regresi.
Implementasi
import numpy as np
import pandas as pdknowledge = pd.DataFrame({'Earnings': [30000, 40000, 50000, 60000, 1000000]})
knowledge['LogIncome'] = np.log(knowledge['Income'])
print(knowledge)
4. Information Extraction
- Judul : Prediksi Permintaan Produk Berdasarkan Hari dalam Seminggu.
- Kasus : Perusahaan ritel ingin memprediksi permintaan produk berdasarkan hari dalam seminggu.
Implementasi
import pandas as pdknowledge = pd.DataFrame({'TransactionDate': pd.date_range(begin='1/1/2023', durations=10, freq='D'), 'Gross sales': [100, 150, 200, 250, 300, 350, 400, 450, 500, 550]})
knowledge['DayOfWeek'] = knowledge['TransactionDate'].dt.dayofweek
print(knowledge)
5. Imputation
- Judul : Mengisi Nilai Hilang pada Information Kesehatan Pasien.
- Kasus : Rumah sakit ingin mengisi nilai yang hilang pada kolom tekanan darah pasien.
import pandas as pdknowledge = pd.DataFrame({'BloodPressure': [120, 130, None, 140, None]})
knowledge['BloodPressure'].fillna(knowledge['BloodPressure'].median(), inplace=True)
print(knowledge)
6. Binning
- Judul : Mengelompokkan Usia Pasien ke dalam Bins untuk Analisis Kesehatan.
- Kasus : Klinik ingin mengelompokkan usia ke dalam pasien ke dalam beberapa kategori umur.
Implementasi
import pandas as pd
knowledge = pd.DataFrame ({"Age": [15, 25, 35, 45, 55]})
knowledge ["AgeGroup"] = pd.minimize (knowledge ["Age"], bins = [0, 18, 35, 50, 100], labels = ["Child", "YoungAdult", "Adult", "Senior"])print (knowledge)
7. Splitting Function
- Judul : Memisahkan Kolom Alamat Menjadi Jalan, Kota dan Kode Pos.
- Kasus : Perusahaan ingin memisahkan kolom alamat lengkap karyawan menjadi kolom jalan, kota dan kode pos.
Implementasi
import pandas as pdknowledge = pd.DataFrame ({ "Tackle": ["123 Main St, Springfield, 12345", "456 Elm St, Shelbyville, 67890"]})
knowledge [["Street", "City", "Zipcode"]] = knowledge ["Address"].str.break up (",", increase = True)
print (knowledge)
8. Outliers Dealing with
- Judul : Mengidentifikasi dan Menangani Outliers pada Information Harga Properti.
- Kasus : Agen actual property ingin mengidentifikasi dan menangani outliers pada knowledge harga properti.
Implementasi
import pandas as pdknowledge = pd.DataFrame ({"Worth": [100000, 150000, 200000, 250000, 500000]})
Q1 = knowledge ["Price"].quantile (0.25)
Q3 = knowledge ["Price"].quantile (0.75)
IQR = Q3-Q1
lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR
outliers = knowledge [(data ["Price"] < lower_bound) | (knowledge ["Price"] > upper_bound)]
print (outliers)
9. Categorical Encoding
- Judul : Mengubah Kategori Produk Menjadi Format Numerik untuk Mannequin Machine Studying.
- Kasus : Perusahaan e-commerce ingin mengubah kolom kategori produk menjadi format numeruk untuk mannequin rekomendasi produk.
Implementasi
import pandas as pd
from sklearn.prepocessing import LabelEncoderknowledge = pd.DataFrame ({"Class": ["Electronics", "Fashion", "Food"]})
le = LabelEncoder()
knowledge ["CategoryEncoded"] = le.fit_transform(knowledge ["Category"])
print(knowledge)
10. Polynominal Options
- Judul : Menambahkan Fitur Polinominal untuk Mannequin Regresi Prediksi Harga Rumah.
- Kasus : Agen properti ingin meningkatkan mannequin prediksi harga rumah dengan menambahkan fitur polinominal.
Implementasi
import pandas as pd
from sklearn.prepocessing import PolynominalFeaturesknowledge = pd.DataFrame ({"SquareFeet": [1000, 1500, 2000, 2500, 3000]})
poly = PolynomialFeatures (diploma = 2)
data_poly = poly.fit_transform (knowledge)
print (data_poly)
11. Interplay Options
- Judul : Membuat Fitur Interaksi untuk Meningkatkan Mannequin Prediksi Kinerja Karyawan.
- Kasus : Perusahaan ingin meningkatkan mannequin prediksi kinerja karyawan dengan menambahkan fitur interaksi antara jam kerja dan tingkat pendidikan.
Implementasi
import pandas as pd
from sklearn.preprocessing import PolynomialFeaturesknowledge = pd.DataFrame ({"HoursWorked": [40, 50, 60, 70, 80], "EducationLevel": [1, 2, 3, 4, 5]})
poly = PolynomialFeatures (interaction_only = True, include_bias = False)
data_interaction = poly.fit_transform(knowledge)
print (data_interaction)
12. One-Sizzling Encoding
- Judul : Mengubah Kategori Produk Menjadi One-Sizzling Encoding untuk Mannequin Machine Studying.
- Kasus : Perusahaan ingin mengubah kolom kategori produk menjadi format one-hot encoding untuk mannequin prediksi.
Implementasi
import pandas as pdknowledge = pd.DataFrame ({"Class": ["Electronics", "Fashion", 'Food"]})
data_encoded = pd.get_dummies (knowledge, columns = ["Category"])
print (data_encoded)
13. Label Encoding
- Judul : Mengubah Kategori Pelanggan Menjadi Format Numerik untuk Analisis Segmen Pasar.
- Kasus : Perusahaan ingin mengubah kolom kategori pelanggan menjadi format numerik untuk analisis segmen pasar.
Implementasi :
import pandas as pd
from sklearn.preprocessing import LabelEncoderknowledge = pd.DataFrame ({"CustomerType": ["Regular", "VIP", "New"]})
le = LabelEncoder()
knowledge ["CustomerTypeEncoded"] = le.fit_transform (knowledge["CustomerType"])
print(knowledge)
14. Normalization
- Judul : Normalisasi Information Skor Siswa untuk Prediksi Kinerja Akademik.
- Kasus : Sekolah ingin menormalisasi knowledge skor siswa untuk mannequin prediksi kinrja akademik.
from sklearn.preprocessing import MinMaxScaler
import pandas as pdknowledge = pd.DataFrame ({"Rating": [70, 80, 90, 85, 75]})
scaler = MinMaxScaler()
knowledge ["NormalizedScore"] = scaler.fit_transform (knowledge [["Score"]])
print (knowledge)
15. Standardization
- Judul : Standardisasi Information Tinggi Badan untuk Prediksi Kesehatan.
- Kasus : Rumah sakit ingin menstandardisasi knowledge tinggi badan pasien untuk mannequin prediksi kesehatan.
Implementasi
from sklearn.preprocessing import StandardScaler
import pandas as pdknowledge = pd.DataFrame ({"Peak": [160, 170, 180, 190, 200]})
scaler = StandarScaler()
knowledge ["StandardizedHeight"] = scaler.fit_transform(knowledge[["Heigt"]])
print (knowledge)
16. Date/ Time Options
- Judul : Ekstraksi Fitur Waktu untuk Prediksi Penjualan Harian.
- Kasus : Toko Ritel ingin mengekstrak fitur waktu dari knowledge tanggal transaksi untuk mannequin prediksi penjualan harian.
Implementasi
import pandas as pdknowledge = pd.DataFrame ({"TransactionDate": pd.date_range (begin = "1/1/2023", durations = 10, freq = "D")})
knowledge ["DayOfWeek"] = knowledge["TransactionDate"].dtdayofweek
knowledge ["Month"] = knowledge ["TransactionDate"].dt.month
knowledge ["Day"] = knowledge ["TransactionDate"].dt.day
print (knowledge)
17. Textual content Options
- Judul : Ekstraksi Fitur Teks untuk Analisis Sentimen Ulasan Produk.
- Kasus : Perusahaan e-commerce ingin mengekstrak fitur teks dari ulasan produk untuk analisis sentimen.
Implementasi
from sklearn.feature_extraction.textual content import CountVectorizer
import pandas as pdknowledge = pd.DataFrame ({"Overview": ["Great product", "Very satisfied", "Not good", "Excellent"]})
vectorizer = CountVectorizer()
text_features = vectorizer.fit_transform (knowledge ["Review"])
print (text_fetures.toarray())
18. Principal Part Evaluation (PCA)
- Judul : Mengurangi Dimensi Information Keuangan dengan PCA untuk mannequin Prediksi.
- Kasus : Perusahaan keuangan ingin mengurangi dimensi knowledge untuk mannequin prediksi menggunakan PCA.
from sklearn.decomposition import PCA
import pandas as pdknowledge = pd.DataFrame ({"Options": [1, 2, 3, 4, 5], "Feature2": [2, 3, 4, 5, 6], "Feature3": [3, 4, 5, 6, 7]})
pca = PCA (n_components = 2)
data_pca = pca.fit_transform(knowledge)
print (data_pca)
19. Options Clustering
- Judul : Mengelompokkan Fitur Berdasarkan Kesamaan untuk Meningkatkan Mannequin Prediksi.
- Kasus : Perusahaan ingin mengelompokkan fitur yang serupa untuk menyederhanakan mannequin prediksi.
Implementasi
from sklearn.cluster import FeatureAgglomeration
import pandas as pdknowledge = pd.DataFrame ({"Feature1": [1, 2, 3, 4, 5], "Feature2": [2, 3, 4, 5, 6], "Feature3": [3, 4, 5, 6, 7]})
fa = FeatureAgglomeration(n_clusters=2)
data_clustered = fa.fit_transform(knowledge)
print (data_clustered)
20. Goal Encoding
- Judul : Mengubah Kategori Lokasi Menjadi Goal Encoding untuk Mannequin Prediksi Harga Properti.
- Kasus : Agen properti ingin menggunakan goal encoding pada kolom lokasi untuk mannequin prediksi harga properti.
Implementasi
import pandas as pdknowledge = pd.DataFrame ({"Location": ["A", "B", "A", "B", "C"], "Worth": [200000, 250000, 220000, 270000, 300000]})
mean_encoded = knowledge.groupby ("Location")["Price"].imply()
knowledge ["LocationEncoded"] = knowledge ["Location"].map (mean_encoded)
print (knowledge)
21. Function Choice
- Judul : Memilih Fitur Terbaik untuk Mannequin Prediksi Kinerja Karyawan.
- Kasus : Perusahaan ingin memilih fitur terbaik untuk mannequin prediksi kinerja karyawan.
Implementasi
from sklearn.feature_selection import SelectKBest, f_classif
import pandas as pdknowledge = pd.DataFrame ({"Feature1" : [1, 2, 3, 4, 5], "Feature2" : [2, 3, 4, 5, 6], "Feature3": [3, 4, 5, 6, 7], "Goal": [0, 1, 0, 1, 0]})
X = knowledge [["Feature1", "Feature2", "Feature3"]]
y = knowledge ["Target"]
selector = SelectKBest (score_func = f_clssif, okay=2)
X_new = selector.fit_transform(X, y)
print (X_new)
Dengan contoh-contoh ini, Anda bisa melihat bagaimana berbagai teknik characteristic engineering diterapkan dalam situasi nyata untuk meningkatkan performa mannequin machine studying.