Sumber utama: Rodríguez, J. J., Kuncheva, L. I., & Alonso, C. J. (2006). Rotation Forest: A New Classifier Ensemble Method. IEEE TPAMI.

🇮🇩 Pendahuluan

Rotation Forest adalah metode ensemble untuk klasifikasi yang membangun banyak decision tree, tetapi tiap pohon dilatih pada data yang sudah “dirotasi” menggunakan PCA. Tujuannya sederhana: membuat pohon-pohon yang tetap kuat (akurasi tinggi) namun berbeda satu sama lain (diversitas tinggi).

Intuisi singkatnya:
Random Forest merandomisasi pemilihan fitur saat split, sedangkan Rotation Forest merandomisasi orientasi ruang fitur sebelum pohon dilatih.

🇬🇧 Introduction

Rotation Forest is an ensemble classification method that builds multiple decision trees, where each tree is trained on a PCA-rotated version of the data. The goal is to create base learners that are both accurate and diverse.

Quick intuition:
Random Forest randomizes feature selection during splitting, while Rotation Forest randomizes the geometry (orientation) of the feature space before training.

1) Notasi Dasar | Basic Notation

🇮🇩

Misalkan dataset latih adalah:

Jumlah observasi: $N$
Jumlah fitur: $n$
Jumlah kelas: $c$
Matriks fitur: $X \in \mathbb{R}^{N \times n}$
Label kelas: $y \in \{\omega_1,\dots,\omega_c\}^N$
Jumlah classifier dalam ensemble: $L$

Tiap classifier ke- $i$ akan memiliki rotation matrix sendiri, yaitu $R_i^a$ .

🇬🇧

Let the training data be:

Number of samples: $N$
Number of features: $n$
Number of classes: $c$
Feature matrix: $X \in \mathbb{R}^{N \times n}$
Class labels: $y \in \{\omega_1,\dots,\omega_c\}^N$
Number of ensemble members: $L$

Each classifier $i$ i has its own rotation matrix $R_i^a$ .

2) Inti Model Rotation Forest | The Core Model

🇮🇩

Untuk classifier ke- $i$ i, data latih dirotasi menjadi: $X^{(i)} = X R_i^{a}$

Pohon keputusan $D_i$ Di dilatih menggunakan $X^{(i)}$ X(i) (bukan $X$ X asli).

🇬🇧

For classifier $i$ i, the training data is rotated as: $X^{(i)} = X R_i^{a}$

Then decision tree $D_i$ is trained on $X^{(i)}$ .

3) Membagi Fitur Menjadi K Subset | Splitting Features into K Subsets

🇮🇩

Himpunan fitur $F=\{1,2,\dots,n\}$ dibagi acak menjadi $K$ subset yang saling lepas: $F = F_{i,1} \cup F_{i,2} \cup \dots \cup F_{i,K}, \quad F_{i,p} \cap F_{i,q} = \emptyset \ (p\neq q)$

Jika $n$ n habis dibagi $K$ K, ukuran subset adalah: $M = \frac{n}{K}$

🇬🇧

The feature set $F=\{1,2,\dots,n\}$ F={1,2,…,n} is randomly split into $K$ K disjoint subsets: $F = F_{i,1} \cup F_{i,2} \cup \dots \cup F_{i,K}, \quad F_{i,p} \cap F_{i,q} = \emptyset \ (p\neq q)$

If $n$ n is divisible by $K$ K, the subset size is: $M = \frac{n}{K}$

4) PCA per Subset (Tanpa Membuang Komponen) | PCA per Subset (No Component Dropping)

🇮🇩

Untuk setiap subset fitur $F_{i,j}$ Fi,j, diambil sampel bootstrap (misalnya 75% data) untuk membentuk matriks data subset $X_{i,j}$ Xi,j. Lalu PCA dilakukan lewat kovarians: $\Sigma_{i,j} = \frac{1}{N_{i,j}-1}\left(X_{i,j}-\bar{X}_{i,j}\right)^\top\left(X_{i,j}-\bar{X}_{i,j}\right)$

Kemudian eigen-decomposition: $\Sigma_{i,j} v_{i,j}^{(m)} = \lambda_{i,j}^{(m)} v_{i,j}^{(m)}, \quad m=1,\dots,M_j$

Kumpulan eigenvector membentuk matriks: $P_{i,j} = \left[ v_{i,j}^{(1)} \ v_{i,j}^{(2)} \ \dots \ v_{i,j}^{(M_j)} \right]$

Catatan penting: Rotation Forest menyimpan semua komponen PCA (tidak ada reduksi dimensi).

🇬🇧

For each feature subset $F_{i,j}$ Fi,j, bootstrap samples are taken (e.g., 75% of data) to form $X_{i,j}$ Xi,j. PCA is computed via covariance: $\Sigma_{i,j} = \frac{1}{N_{i,j}-1}\left(X_{i,j}-\bar{X}_{i,j}\right)^\top\left(X_{i,j}-\bar{X}_{i,j}\right)$

Then eigen-decomposition: $\Sigma_{i,j} v_{i,j}^{(m)} = \lambda_{i,j}^{(m)} v_{i,j}^{(m)}, \quad m=1,\dots,M_j$

Eigenvectors are collected into: $P_{i,j} = \left[ v_{i,j}^{(1)} \ v_{i,j}^{(2)} \ \dots \ v_{i,j}^{(M_j)} \right]$

Key note: Rotation Forest keeps all PCA components (no dimensionality reduction).

5) Menyusun Rotation Matrix (Persamaan “Resmi”) | Constructing the Rotation Matrix (Canonical Form)

Ini bentuk yang paling “rapi” untuk blog, namun tetap sesuai struktur paper: matriks rotasi $R_i$ Ri berbentuk blok-diagonal dari hasil PCA tiap subset. $R_i= \begin{bmatrix} P_{i,1} & 0 & \cdots & 0\\ 0 & P_{i,2} & \cdots & 0\\ \vdots & \vdots & \ddots & \vdots\\ 0 & 0 & \cdots & P_{i,K} \end{bmatrix}$

Lalu dilakukan pengaturan ulang kolom (reordering) agar urutan fitur kembali cocok dengan fitur asli, menghasilkan: $R_i^{a}$

Data latih untuk pohon $D_i$ Di: $X^{(i)} = X R_i^{a}$

6) Agregasi Prediksi Ensemble | Ensemble Prediction Aggregation

🇮🇩

Untuk data uji $x$ x, setiap classifier memberi probabilitas kelas $d_{i,j}(\cdot)$ di,j(⋅). Kombinasi dilakukan dengan rata-rata: $\mu_j(x) = \frac{1}{L}\sum_{i=1}^{L} d_{i,j}\left(x R_i^{a}\right), \quad j=1,\dots,c$

Prediksi akhir: $\hat{y}(x)=\arg\max_{j \in \{1,\dots,c\}} \mu_j(x)$

🇬🇧

For a test instance $x$ x, each classifier outputs class probabilities $d_{i,j}(\cdot)$ di,j(⋅). The ensemble averages them: $\mu_j(x) = \frac{1}{L}\sum_{i=1}^{L} d_{i,j}\left(x R_i^{a}\right), \quad j=1,\dots,c$

Final prediction: $\hat{y}(x)=\arg\max_{j \in \{1,\dots,c\}} \mu_j(x)$

7) (Opsional) Kappa–Error untuk Mengukur Diversitas | (Optional) Kappa–Error for Diversity

🇮🇩

Untuk dua classifier $D_i$ Di dan $D_j$ Dj, kappa dihitung dari matriks coincidence $M=[m_{k,s}]$ M=[mk,s]. Definisi kappa: $\kappa_{i,j}=\frac{\sum_{k} m_{k,k} – ABC}{1-ABC}$

dengan: $ABC=\sum_{k}\left(\sum_{s} m_{k,s}\right)\left(\sum_{s} m_{s,k}\right)$

🇬🇧

For two classifiers $D_i$ Di and $D_j$ Dj, kappa is computed from the coincidence matrix $M=[m_{k,s}]$ M=[mk,s]: $\kappa_{i,j}=\frac{\sum_{k} m_{k,k} – ABC}{1-ABC}$

where: $ABC=\sum_{k}\left(\sum_{s} m_{k,s}\right)\left(\sum_{s} m_{s,k}\right)$

Kesimpulan | Conclusion

🇮🇩

Rotation Forest bisa diringkas dalam tiga ide:

fitur dibagi menjadi beberapa subset,
tiap subset diputar dengan PCA (semua komponen disimpan),
tiap pohon dilatih pada data hasil rotasi, lalu output digabung rata-rata.

Hasilnya adalah ensemble yang biasanya memiliki kombinasi optimal antara akurasi dan diversitas.

🇬🇧

Rotation Forest can be summarized into three ideas:

split features into subsets,
rotate each subset using PCA (keep all components),
train each tree on rotated data and average predictions.

This often yields a strong balance between accuracy and diversity.

Rotation Forest: Model, Persamaan, dan Alur Metode