Multivariate : Mitos vs Realita

Apa itu ” multivariate “? Multivariat Data analisis adalah seperangkat model statistik yang meneliti pola dalam data multidimensi dengan mempertimbangkan, sekaligus, beberapa variabel data. Ini adalah perluasan dari analisis data bivariat , yang hanya mempertimbangkan dua variabel dalam modelnya.

Apa itu “multivariate”?

Analisis data multivariat adalah sekumpulan model statistik yang memeriksa pola dalam data multidimensi dengan mempertimbangkan, sekaligus, beberapa variabel data. Ini adalah perluasan dari analisis data bivariat, yang hanya mempertimbangkan dua variabel dalam modelnya. Karena model multivariasi mempertimbangkan lebih banyak variabel, mereka dapat memeriksa fenomena yang lebih kompleks dan menemukan pola data yang mewakili dunia nyata dengan lebih akurat.

Pertimbangkan sebagai contoh model regresi – metode untuk menganalisis korelasi dalam data. Kasus regresi non multivariat adalah analisis antara dua variabel, dan itu disebut regresi bivariat. Ini bisa digunakan, misalnya, untuk melihat bagaimana h delapanseorang perenang berkorelasi dengan kencingnya Dengan melakukan regresi bivariat, analis dapat menemukan bahwa perenang yang lebih tinggi cenderung berenang lebih cepat. Meskipun benar, kita tahu bahwa ketinggian bukanlah satu-satunya hal yang mempengaruhi kecepatan, sehingga model bivariat hampir tidak dapat menjelaskan fenomena renang secara lengkap.

Sebaliknya, regresi multivariat – juga disebut regresi berganda – dapat memperhitungkan lebih banyak variabel: berat badan , usia , asupan karbohidrat , asupan protein , jumlah jam pelatihan , jumlah jam istirahat , dan banyak lagi lainnya. Secara teori , semakin tinggi jumlah variabel, semakin akurat regresi yang dapat mewakili fenomena renang, ke titik di mana ia dapat menunjukkan kecepatan perenang baru dengan sedikit kesalahan.

Saya mengatakan “dalam teori” karena ada peringatan: meskipun lebih banyak variabel membantu mencapai hasil yang kuat, analis perlu membangun model dengan hati-hati dan kesederhanaan. Memasukkan variabel yang tidak berarti bagi fenomena tidak akan membawa manfaat, dan bahkan dapat mengaburkan hasil. Akibatnya, melakukan analisis data multivariat tidak mudah.

Melanjutkan contoh perenang, pertimbangkan kasus seorang analis yang menyertakan variabel ” jumlah jam dalam lalu lintas ” dalam model regresi kecepatan perenang. Analis mungkin menemukan bahwa variabel ini memang berkorelasi dengan kecepatan, dan secara keliru menyimpulkan bahwa memindahkan perenang lebih dekat ke kolam sudah cukup untuk meningkatkan kinerja mereka. Namun pada kenyataannya lalu lintas hanya mempengaruhi jumlah jam latihan dan istirahat, yang kemudian berkorelasi dengan kecepatan. Artinya, hanya menggerakkan perenang tanpa mengoptimalkan jadwal tidak akan meningkatkan performa. Korelasi tidak langsung menghalangi interpretasi hasil.

Mengurai jaring hubungan variabel, di mana masing-masing berkorelasi dengan banyak lainnya, merupakan inti dari analisis data multivariat. Dalam banyak kasus, semakin tinggi interkorelasi ini, semakin sulit tugas untuk mendeteksi hubungan data yang bermakna – karena semua variabel tampaknya memengaruhi sesuatu, setiap struktur yang mendasari atau penyebab efek apa pun menjadi terdilusi. Memecahkan masalah ini sebagian merupakan tugas analis, yang harus mengetahui data dan mengurangi kebisingan dan bias sebanyak mungkin, dan sebagian lagi dari teknik multivariat, yang tahu bagaimana menangani ketidaksempurnaan lainnya.

Jadi, analisis data multivariat mencoba menemukan pola di lautan variabel data. Tapi apa pola itu? Teknik statistik manakah yang dirancang untuk menemukannya? Mari kita melangkah lebih jauh dan melihat kemungkinan dari jenis analisis ini.

Teknik Analisis Data Multivariat

Ada dua kategori teknik multivariat, masing-masing mengejar jenis hubungan yang berbeda dalam data: ketergantungan dan saling ketergantungan. Ketergantungan berhubungan dengan situasi sebab-akibat dan mencoba untuk melihat apakah satu set variabel dapat mendeskripsikan atau memprediksi nilai variabel lainnya. Saling ketergantungan mengacu pada interkorelasi struktural dan bertujuan untuk memahami pola yang mendasari data.

Ada beberapa model multivariat yang mampu menemukan hubungan tersebut, dan banyak faktor yang membedakannya. Salah satu faktor utama yang harus dipertimbangkan saat memilih teknik adalah sifat variabel data: dapat berupa metrik atau non-metrik.

Variabel data metrik: selalu berjenis numerik dan mewakili informasi yang dapat diukur dengan beberapa skala. Contohnya termasuk usia (20 tahun), suhu (25 ºC), dan keuntungan (US $ 2000). Angka tersebut menentukan besarnya nilai pada skala tertentu.

Variabel non-metrik: mengategorikan data, tetapi tidak menentukan besarnya. Contohnya termasuk sistem operasional (Windows, Linux, macOS) dan ukuran rumah (kecil, sedang, besar). Daftar opsi yang dapat digunakan variabel non-metrik disebut tingkat atau kategori. Bahkan ketika level memiliki urutan yang melekat (misalnya, rumah besar lebih besar dari rumah kecil), itu tetap merupakan variabel non-metrik karena tidak ada besaran yang terkait (variabel tidak mengatakan seberapa besar rumah itu) . Perhatikan bahwa variabel non-metrik juga dapat berupa numerik jika tidak dilampirkan ke skala apa pun, seperti variabel yang menentukan nomor id objek.

Sebagian besar teknik multivariasi melakukan komputasi yang membutuhkan angka sebagai input, jadi bagaimana teknik dapat bekerja dengan data non-metrik? Jawabannya adalah variabel non-metrik dapat menjadi variabel metrik dikotomik. Dalam konversi ini, setiap tingkat menjadi variabel metrik baru yang hanya dapat memiliki nilai 0 (sebagai salah) atau 1 (sebagai benar). Misalnya, pertimbangkan variabel non-metrik yang mengklasifikasikan Warna produk dengan tingkatan: hitam, putih, dan abu-abu. Variabel dapat diganti dengan dua yang baru: isColorBlack dan isColorWhite.Jika sebuah produk berwarna hitam, maka diasumsikan nilai 1 dan 0 masing-masing, dan jika putih, nilai 0 dan 1. Tidak perlu variabel untuk produk abu-abu karena mereka dapat mengasumsikan nilai 0 dan 0: jika mereka bukan putih atau hitam, mereka hanya bisa abu-abu.

Sifat variabel adalah faktor utama yang membedakan teknik multivariat. Bagian berikut merangkum beberapa model yang tersedia, tujuan mereka, dan sifat data yang dapat mereka operasikan. Ini bukan daftar yang ekstensif, tetapi mencakup cukup banyak teknik untuk menganalisis data dengan kombinasi sifat apa pun.

Contoh perenang yang disebutkan sebelumnya adalah penggunaan klasik teknik ketergantungan: tujuannya adalah untuk membangun hubungan sebab-akibat antara variabel independen – atau prediktor – (penyebab) dan variabel dependen (efek). Jika pembaca terbiasa dengan pembelajaran mesin – yang memiliki banyak kesamaan dengan analisis data multivariasi – teknik ketergantungan dapat dikaitkan dengan teknik pembelajaran yang diawasi.

Dalam teknik ketergantungan, analis memberi makan model dengan data masukan, menentukan variabel mana yang independen dan mana yang bergantung. Variabel independen adalah variabel yang akan coba diprediksi atau dijelaskan oleh model (misalnya, kecepatan perenang). Variabel dependen (misalnya, tinggi perenang) adalah variabel yang ingin dipelajari analis seberapa besar pengaruhnya terhadap variabel independen.

Tujuan dari semua teknik ketergantungan adalah untuk membangun hubungan sebab-akibat. Perbedaan paling mencolok di antara keduanya adalah jumlah variabel independen yang didukungnya dan sifat variabel yang terlibat. Jadi mari kita lihat bagaimana teknik berhubungan dengan karakteristik tersebut dan kapan mereka dapat digunakan.

Regresi Berganda

Variabel Dependen: satu variabel metrik.
Sifat Variabel Independen: apa saja.

Regresi berganda merupakan suatu pilihan ketika analis hanya menetapkan satu variabel dependen yaitu metrik. Hasil dari penerapan regresi berganda adalah besarnya pengaruh masing-masing variabel independen terhadap variabel dependen. Hasil itu juga mengarah ke fungsi estimasi, di mana ia menerima nilai untuk variabel independen dan mengembalikan nilai yang diharapkan untuk dependen.

Seorang analis dapat menggunakan regresi berganda, misalnya, untuk memprediksi kinerja penjualan toko yang berbeda berdasarkan atributnya (misalnya, jumlah vendor, jumlah jam buka). Analisis semacam itu akan mengarah pada pemahaman yang lebih dalam tentang apa yang membuat setiap toko menjual lebih banyak, yang dapat mendorong perubahan administratif pada atribut terpenting menuju nilai yang memberikan keuntungan lebih tinggi.

Analisis Konjoin

Dependent Variable (s): satu variabel dengan sifat apapun.
Sifat Variabel Independen: non-metrik.

Analisis konjoin adalah opsi jika variabel independen non-metrik, dan hanya memengaruhi satu variabel. Jika ada yang ditanya bagaimana analisis ini dapat dilakukan, jawaban intuitifnya adalah menguji semua kombinasi level dalam variabel non-metrik dan mengamati nilai nilai dependen di masing-masing level. Namun, itu bisa sangat mahal, karena jumlah kombinasi tumbuh secara eksponensial dengan setiap variabel independen baru. Daya tarik analisis konjoin adalah tidak perlu menguji semua kombinasi atribut untuk mencapai hasil yang baik, sehingga pengumpulan data yang diperlukan untuk analisis ini lebih cepat dan murah.

Itu membuat analisis konjoin menjadi teknik yang banyak digunakan dalam domain komersial, di mana seorang analis mungkin ingin memeriksa penerimaan pengguna (variabel dependen) atas produk dari berbagai atribut (variabel independen) tanpa membuang terlalu banyak sumber daya. Misalnya, jika suatu produk memiliki tiga variabel independen (mis., Warna, ukuran, persepsi harga), alih-alih mengukur penerimaan pengguna di semua 27 kombinasi, data yang dikumpulkan hanya perlu memiliki beberapa kombinasi — teknik menangani mengisolasi efek dari setiap variabel.

Analisis konjoin sangat terkait dengan efisiensi proses pengumpulan data, sehingga sangat berguna saat data belum dikumpulkan, daripada menggunakannya dalam kumpulan data yang sudah lengkap.

Analisis Diskriminan Ganda

Variabel Terikat: satu variabel non-metrik
Sifat Variabel Independen: metrik

Analisis diskriminan ganda sangat mirip dengan pengklasifikasi pembelajaran mesin. Ini adalah opsi jika hanya ada satu variabel dependen, yang non-metrik – juga disebut “kelas” atau “label”. Tujuannya adalah untuk memahami karakteristik data yang berkaitan dengan setiap kelas.

Contoh klasiknya adalah klasifikasi. Setelah memproses data, model dapat mengklasifikasikan entri mendatang yang tidak memiliki label. Misalnya, model dapat menganalisis karakteristik fragmen musik (variabel dependen), sedangkan setiap karya ditetapkan ke genre musik (variabel independen). Jika analis membangun model yang berhasil, ia dapat mengklasifikasikan genre fragmen yang belum pernah dilihat sebelumnya.

Analisis diskriminan berganda tidak optimal ketika beberapa variabel independen non-metrik, artinya awalnya metrik memberikan hasil yang lebih baik.

Model Probabilitas Linear

Variabel Tergantung: satu variabel non-metrik (lebih disukai biner)
Sifat Variabel Independen: apa saja

Model probabilitas linier bekerja mirip dengan analisis diskriminan ganda – tujuannya adalah untuk mengklasifikasikan variabel dependen non-metrik – tetapi tanpa batasan yang membutuhkan variabel independen metrik. Namun, batasan lain terjadi: teknik ini bekerja lebih baik bila variabel dependen adalah biner; Artinya, hanya ada dua tingkatan.

Jika klasifikasi melibatkan beberapa label yang mungkin untuk variabel dependen dan variabel independen adalah metrik, analis harus memberikan preferensi pada analisis diskriminan ganda. Jika klasifikasi melibatkan variabel dependen biner dan variabel independen termasuk variabel non-metrik, sebaiknya model probabilitas linier diterapkan.

Analisis Multivariate Varians dan Kovarian

Variabel Terikat: banyak variabel metrik
Sifat Variabel Bebas: non-metrik

Analisis multivariat varians (MANOVA) dan analisis kovarian multivariat (MANCOVA) adalah teknik yang dapat digunakan analis untuk mengukur pengaruh banyak variabel independen non-metrik pada dua atau lebih variabel metrik dependen. Jika pembaca sudah familiar dengan ANOVA – yang hanya mendukung satu variabel dependen – MANOVA adalah ekstensi multivariat dari teknik itu.

Sifat data yang didukung MANOVA membuatnya sesuai untuk domain penelitian. Untuk menguji hipotesis, peneliti biasanya memanipulasi variabel non-metrik dengan dua atau lebih level – yang disebut perlakuan – dan kemudian mengambil beberapa ukuran untuk melihat apakah objek dalam satu perlakuan berbeda dari objek di bawah perlakuan lainnya. Namun, penelitian yang kompleks mungkin memerlukan banyak variabel independen dan banyak ukuran: di situlah MANOVA masuk.

Pertimbangkan contoh tim insinyur aerodinamika yang merancang pesawat baru dan ingin mengukur apakah beberapa kombinasi mesin dan sayap memengaruhi besarnya gaya di pesawat (misalnya, gaya dorong, gaya hambat, gaya angkat, berat).

Dalam lingkungan simulasi, para insinyur memilih tiga jenis mesin (E1, E2, E3) dan tiga jenis sayap (W1, W2, W3) – baik jenis mesin dan jenis sayap adalah variabel independen. Mereka mengembangkan beberapa pesawat untuk semua kombinasi sayap mesin dan meluncurkannya di banyak ruang virtual untuk mengumpulkan data gaya sebanyak mungkin (variabel dependen).

Penerapan MANOVA pada data yang dikumpulkan dapat menunjukkan bahwa kombinasi E1-W2 secara signifikan lebih buruk, sedangkan E3-W1 secara signifikan lebih baik. Para insinyur dapat melihat bagaimana setiap mesin, setiap sayap, dan setiap kombinasi, berdampak pada masing-masing gaya. Ini bukanlah teknik yang mudah untuk dilakukan atau diinterpretasikan tetapi merupakan teknik yang bermanfaat dan kuat.

Analisis kovarians ganda (MANCOVA) dapat menyempurnakan hasil dan memperkuat validitas penelitian dengan menghilangkan efek dari kemungkinan variabel yang tidak teramati (misalnya, apakah hujan atau tidak dalam simulasi). Jadi, bahkan jika faktor-faktor ini mempengaruhi variabel dependen, MANCOVA mengurangi dampaknya untuk mengisolasi efek perawatan sebanyak mungkin.

Analisis Korelasi Kanonik

Dependent Variable (s): banyak variabel dalam bentuk apapun Sifat
Variabel Independen: ada

Analisis korelasi kanonik adalah salah satu teknik ketergantungan yang paling fleksibel. Ini mendukung banyak variabel dependen dan banyak independen, dengan kombinasi sifat apa pun, yang berarti selalu menjadi pilihan di atas tabel.

Namun, ini tidak berarti selalu merupakan pilihan yang baik. Dengan menjadi begitu umum, korelasi kanonik tidak sekuat teknik yang lebih spesifik yang berfokus pada satu kombinasi, jadi teknik ini harus menjadi opsi terakhir dalam tabel. Analis dapat memperoleh hasil yang lebih baik dengan menggunakan model yang lebih spesifik daripada menggunakan analisis korelasi kanonik.

Pemodelan Persamaan Struktural

Dependent Variable (s): banyak variabel metrik (saat memeriksa beberapa relasi)
Sifat Variabel Independen: ada

Semua teknik sebelumnya, bahkan yang mempertimbangkan beberapa variabel dependen, hanya menetapkan satu hubungan sebab-akibat. Artinya, terdapat satu persamaan yang menggambarkan keseluruhan korelasi antar variabel yang terlibat. Namun, itu mungkin tidak selalu terjadi: dalam data yang kompleks dan kusut, analis dapat mencari relasi yang berbeda — beberapa persamaan yang menggambarkan banyak perilaku berbeda dalam data. Dalam kasus khusus ini, daripada melakukan beberapa analisis, analis dapat menggunakan pemodelan persamaan struktural.

Teknik ini mencoba mencari persamaan hubungan yang berbeda untuk setiap variabel terikat. Salah satu cara untuk melihat pemodelan persamaan struktural adalah sebagai teknik yang menguraikan masalah dari banyak variabel independen menjadi beberapa regresi ganda dan menghitungnya secara bersamaan.

Pilihan penggunaan pemodelan persamaan struktural berawal dari kebutuhan untuk memeriksa beberapa hubungan sekaligus, sehingga menjadi pilihan ketika tujuannya adalah untuk menyelidiki fenomena kompleks yang diperkirakan memiliki perilaku ini.

Teknik interdependensi tidak bertujuan untuk memecahkan masalah sebab-akibat, melainkan untuk memahami struktur yang mendasari data. Itu membuat masing-masing dari mereka sangat dapat dibedakan, dengan tujuan dan kebutuhan yang berbeda.

Analisis faktor

Sasaran: memahami variabel mana yang sangat berkorelasi dengan yang lain.

Analisis faktor bertujuan untuk mengurangi dimensi data dengan mengurangi jumlah variabel data. Ini mendeteksi kelompok variabel dengan korelasi tinggi, yang dapat digunakan analis sebagai dasar untuk membuat variabel baru yang dapat menggantikannya dengan sedikit kehilangan informasi. Analisis faktor mencakup teknik seperti analisis komponen utama dan analisis faktor umum.

Analis biasanya menggunakan jenis teknik ini sebagai langkah pra-pemrosesan untuk mentransformasikan data sebelum menggunakan model lain. Ketika data memiliki terlalu banyak variabel, kinerja teknik multivariat cenderung kurang optimal, karena pola lebih sulit ditemukan. Dengan menggunakan analisis faktor untuk memadatkan informasi menjadi sekumpulan variabel baru yang lebih kecil, pola menjadi kurang terdilusi dan lebih mudah dianalisis.

Analisis Cluster

Sasaran: menemukan pola dalam entri data

Analisis cluster bertujuan untuk mendeteksi kelompok (cluster) entri data yang memiliki nilai serupa. Teknik ini bukanlah eksklusivitas analisis data multivariat: bahkan data unidimensi pun dapat dikelompokkan. Namun, tugas ini jauh lebih sulit bila ada lebih banyak variabel untuk membandingkan data.

Analis dapat menggunakan cluster untuk memahami distribusi entri. Dengan menemukan titik data yang serupa, analis dapat bernalar tentang kesamaan ini dan menumbuhkan pengetahuannya tentang perilaku yang mendorong nilai dari objek yang dianalisis.

Misalnya, dalam data komersial, analisis semacam itu dapat menghasilkan pengakuan adanya sekelompok konsumen yang memiliki karakteristik serupa dan sangat sering membeli produk tertentu – profil konsumen. Organisasi kemudian dapat mengambil tindakan untuk membuat produk tersebut lebih dapat diakses oleh konsumen potensial tersebut.

Teknik ini juga dapat berfungsi sebagai dasar untuk mengurangi jumlah objek dalam kumpulan data. Misalnya, jika kumpulan data berisi 1000 item, analis dapat mengelompokkannya menjadi 100 grup yang terdiri dari 10. Kemudian, rata-rata (juga disebut sentroid) dari grup ini dapat diekstraksi menjadi kumpulan data baru dengan hanya 100 item. Namun, proses ini memerlukan kehati-hatian, karena memaksa jumlah cluster dapat mengelompokkan entri yang tidak terkait, yang membuat kumpulan data tidak mewakili fenomena yang benar. Selain itu, proses rata-rata ini dapat mengakibatkan hilangnya informasi, menimbulkan ketidakpastian pada analisis.

Penskalaan Multidimensi

Sasaran: mendapatkan data tabel dari struktur grafik berbobot

Teknik ini bertujuan untuk mengukur kemiripan antar objek, dan dapat mengubah grafik menjadi tabel. Inputnya adalah matriks ketidaksamaan: matriks ketetanggaan dari grafik berbobot di mana bobot tepi mewakili ukuran jarak buatan antara node (objek). Keluarannya adalah sekumpulan variabel metrik baru (biasanya dua) di mana objek dengan kemiripan tinggi lebih dekat dalam ruang data, dan objek dengan kesamaan rendah berada jauh.

Salah satu penggunaan umum penskalaan multidimensi adalah untuk mendeteksi produk mana yang memiliki profil konsumen yang serupa. Dengan menggunakan grafik input di mana node adalah produknya, dan bobot tepi menunjukkan betapa berbedanya profil konsumen mereka, analis mengubah struktur ini menjadi set data tabel. Memvisualisasikan data baru dalam diagram sebar menunjukkan produk mana yang memiliki konsumen serupa, karena produk tersebut adalah produk yang lebih dekat satu sama lain dalam ruang data.

Analisis Korespondensi

Sasaran: mendapatkan data tabel dari struktur graf bipartit berbobot

Analisis korespondensi agak mirip dengan penskalaan multidimensi. Namun, alih-alih menghubungkan sekumpulan objek dengan dirinya sendiri (misalnya, menghubungkan sekumpulan objek {A, B, C} dengan {A, B, C}), itu mengkorelasikannya dengan set objek lain (misalnya, {A, B, C} dengan {D, E, F}). Hasilnya adalah variabel metrik baru (sekali lagi, biasanya dua untuk kesederhanaan), di mana pasangan objek yang sangat berkorelasi lebih dekat satu sama lain. Jadi, teknik ini seperti variasi penskalaan multidimensi untuk graf bipartit; Artinya, objek tidak memiliki korelasi apa pun dengan objek dalam himpunan yang sama.

Misalnya, teknik ini dapat menghubungkan merek kacamata renang (merek A, merek B, merek C) dengan profil perenang (penghobi, pemula, profesional). Dalam grafik, bobot tepian antara merek dan profil dapat menunjukkan jumlah kacamata yang dijual dari merek tersebut kepada perenang profil tersebut. Perhatikan bahwa profil tidak memiliki tautan apa pun dengan profil lain, begitu pula merek dengan merek lain – strukturnya adalah grafik bipartit.

Saat memvisualisasikan kumpulan data yang dihasilkan dalam sebar, profil perenang akan lebih dekat dengan merek yang disukai dan profil lain yang lebih memilih merek yang sama. Meskipun contoh memiliki enam node, teknik ini bersinar jika ada lebih banyak node, karena ini mengubah matriks yang sangat besar menjadi kumpulan data dua dimensi yang mudah dibaca.

Sources

Hair, Joseph F., et al. Multivariate data analysis(1998) 5th Edition. Prentice hall.

Bacaa Auditor