Applied Multivariate Technique

July 18, 2017 | Autor: Tinuk Suparyatun | Categoria: Multivariate Statistics, Analytical Economics
Share Embed


Descrição do Produto

Gambar 1.11 menunjukkan area kontur dari 3 level yang berbeda kepadatannya yaitu 0,2 (hijau muda), 0,4 (merah), dan 0,6 (biru) dari estimasi kepadatan dimensi tiga. Kontur terlihat seperti dua ellips tetapi antar variabel tumpang tindih.

Efek dari h diberikan secara rinci pada Gambar 1.6. Histogram (kiri atas) untuk diagonal dari uang kertas palsu untuk x0 = 137,8 (nilai minimum) dan h = 0,1. Meningkatkan h menjadi h = 0,2 dan menggunakan data yang sama, x0 = 137,8, hasil dalam histogram ditunjukkan pada bagian kiri bawah dari gurasi. Kepadatan histogram agak halus karena h lebih besar. Lebar bin ini selanjutnya diatur untuk h = 0,3 (kanan atas) dari histogram, salah satu memiliki kesan bahwa distribusi diagonal adalah bimodal dengan puncak
sekitar 138,5 dan 139,9. Deteksi mode memerlukan kesesuaian dengan lebar bin. Menggunakan metode dari metodologi smoothing ( Hardle, Muller, Sperlich dan Werwatz , 2003) dapat dicari nilai optimal lebar bin h untuk n observasi sebagai berikut:

Mirip dengan Plot draftman, scatterplot matriks membantu menciptakan ide-ide baru dan membangun pengetahuan tentang dependensi dan struktur . Gambar 1.14 menunjukkan plot draftman diterapkan pada empat kolom terakhir dari data bank lengkap. Untuk memudahkan interpretasi, telah dibedakan antara kelompok palsu dan asli oleh warna yang berbeda . Pemisahan yang paling jelas terjadi di kanan bawah Gambar 1.12 , X5 vs X6 . Garis pemisah di sini akan miring ke atas di sekitar X6 = 139. Bagian kanan atas dari draftman Plot menunjukkan kontur kepadatan yang telah diperkenalkan pada Bagian 1.3. Kekuatan plot draftman terletak pada kemampuannya untuk menunjukkan koneksi internal diagram pencar.

Dengan [.,.) yaitu sebelah kiri interval tertutup dan sebelah kanan interval terbuka. Jika adalah sampel dengan densitas f, histogram dapat didefinisikan :


Rumus 1.7 merupakan fungsi indikator pertama untuk menghitung angka observasi dari bin . Fungsi indikator kedua untuk lokalisasi penghitungan sekitar x. Parameter h adalah penghalusan atau lokalisasi parameter dan mengontrol lebar bin histogram. Sebuah h yang
terlalu besar untuk blok yang sangat besar membuat histogram yang sangat terstruktur. Di sisi lain sisi, h yang terlalu kecil memberikan perkiraan yang sangat bervariasi dengan banyak puncak.


HISTOGRAM
Histogram adalah perkiraan kepadatan. Perkiraan kepadatan memberikan kesan yang baik dari distribusi dari data. Berbeda dengan boxplots, perkiraan kepadatan menunjukkan kemungkinan multimodality dari data. Idenya adalah untuk lokal mewakili kerapatan data dengan menghitung jumlah pengamatan dalam urutan interval berturut-turut (bin) dengan asal x0. Diberikan Bj(x0,h) menunjukkan bin dari panjang h yang grid bin elemen a dimulai dari x0 :

Ringkasan
Scatterplot dapat dinyatakan dalam 3 dimensi dan 2 dimensi yang memiliki titik, outlier, atau sub-cluster
Scatter plot membantu pada data yang positiv atau negatif saling bebas
Draftman scatter plot matrik membantu mendeteksi kondisi struktur nilai pada variabel yang lain
Pada matrik scatter plot titik pada plot tersebut dapat saling bebas

Ringkasan
Bar dari median dan rata- rata mengukur daerah yang ada di boxplot
Daerah relatif dari median (dan rata- rata) pada box adalah mengukur dari kemiringan
Jarak dari kotak dan whiskers adalah mengukur keacakan
Jarak dari whiskers diindikasikan pada jarak distribusinya
Titik outlying adalah hubungan dengan "*" atau " " tergantung apakah outlier tersebut keluar maka dapat direpresentasikan FUL±1,5dF atau FUL±3dF.
Boxplot tidak termasuk pada multi modalitas atau kluster
Jika membandingkan ukuran relatif dan lokasi kotak, hal ini berarti membandingkan distribusi.
Contoh Box Plot yang lainnya adalah sebagai berikut :
Kesimpulan dari gambar 1.3 adalah sebagai berikut:
Bahan bakar mobil Jepang lebih efisien daripada mobil AS dan Eropa.
Ada satu outlier, bahan bakar mobil sangat efisien (VW-Kelinci Diesel).
Bagian utama dari data mobil AS (kotak) berada di bawah data mobil Jepang.
Mobil Jepang terburuk mempunyai bahan bakar yang lebih efisien hampir 50% daripada mobil AS.
Penyebaran mobil Jepang dan mobil AS hampir sama.
Median data Jepang berada di atas daripada data Eropa dan AS
data.

Di contoh U.S City poin (di luar bar ) berada di -91 dan 349 , maka menarik whiskers ke New Orleans dan Los Angeles . Melihat dari Gambar 1.2 bahwa data tersebut sangat condong : Bagian atas data (di atas median) lebih tersebar daripada bagian bawah (di bawah median). Data berisi dua outlier ditandai sebagai bintang dan lingkaran. Outlier lebih jelas ditampilkan sebagai bintang.
Ringkasan
Estimasi densitas kernel distribusi densitas merupakan metode kernel
Pada h dihitung dari derajat kehalusannya dari estimasi f
Densitas kernel adalah fungsi yang halus dan direpresentasikan pada distribusi secara grafik (3D)
Secara sederhana dapat ditentukan perhitungan dari aturan thumb bandwidth hG = 1,06σˆn-1/5 . Maka pada yang demikian ini disebut Kernel Gaussian
Estimasi kernel densitas deskriptif yang bagus dilihat dari modus, lokasi, kemiringan, ekor, asimetris

Pada Gambar 1.7, menunjukkan histogram dengan x0 = 137,65 (kiri atas), x0 = 137,75 (kiri bawah), x0 = 137,85 (kanan atas), dan x0 = 137,95 (kanan bawah). Semua grafik mempunyai skala yang sama pada sumbu y untuk memungkinkan perbandingan. Satu melihat penafsiran lebar bin h tidak difasilitasi. Pergeseran asal x0 (sampai 4 berbeda lokasi) dibuat 4 histogram yang berbeda. Histogram ini sangat bertentangan dari tujuan menyajikan fitur data. Data yang sama diwakili 4 histogram berbeda. Perbaikan yang disampaikan Scott (1985): "Rata-rata pergeseran histogram". Hasilnya disajikan pada Gambar 1.8. Disini semua pengamatan uang kertas (asli
dan palsu) telah digunakan. Rata-rata histogram bergeser tidak lagi tergantung pada asal dan menunjukkan bimodality dari diagonal dari uang kertas Swiss.

Ringkasan
Modus densitas dapat dideteksi dengan histrogram
Korespondensi modus terdapat pada puncak pada histogram
Histogram dengan h sama tidak identik. Dan origin dinotasikan dengan x0
Pengaruh origin x0 drastis. Jika x0 diubah maka histogram akan berbeda
Konsekuensi dari sebuah h yang terlalu besar adalah histogram tidak terstruktur yang terlalu datar.
Sebuah bin lebar h yang hasil terlalu kecil dalam sebuah histogram tidak stabil
Dapat dikatakan optimal pada
Jika menggunakan rata- rata pada histogram direkomendasikan menggunakan kernel densitas

Kernel Densitas
Pada estimasi histogram memiliki kesulitan untuk merepresentasikan melalui empat titik. Sehingga digunakan.
Penghitungan h berbeda dengan histogram
Kehilangan informasi pada pengamatan lebih sedikit karena terdapat interval pada setiap bagian
Pada representasi kernel ini memiliki kontur yang haslus dibandingkan diagram kotak
Fungsi kernel halus disetiap pengamatan
Pada histogram dirumuskan sebagai berikut:
Jika didefinisikan maka
Ini rumus umum dari estimator kernel. Fungsi ini memiliki kuadrat:

Gambar 1.9 menunjukkan perkiraan kepadatan otomatis untuk diagonal dari uang kertas palsu dan asli. Kepadatan di sebelah kiri adalah densitas sesuai dengan diagonal uang palsu. Pemisahan ini terlihat jelas, tetapi ada juga yang tumpang tindih. Masalah membedakan antara uang kertas palsu dan asli tidak diselesaikan dengan hanya melihat diagonal. Estimasi kepadatan dimensi yang lebih tinggi adalah analog dengan satu dimensi.

Dengan adalah estimasi kepadatan diperoleh dengan menggunakan semua data kecuali untuk pengamatan ke-i. Kedua istilah dalam fungsi di atas melibatkan jumlah ganda. Perhitungan mungkin menjadi lambat. Ada banyak metode seleksi bandwith kepadatan lainnya. Cara tercepat untuk menghitung ini merujuk kepada beberapa referensi distribusi. Ide untuk menggunakan
distribusi normal sebagai referensi dari Silverman(1986). Sehingga pilihan h disebut aturan ibu jari. Untuk kernel Gaussian dari Tabel 1.5 dan distribusi referensi normal, aturan ibu jari adalah untuk memilih
Rumus rata-rata kuadrat deviasi atas grid dari titik sebagai berikut:

Jika ukuran grid cenderung nol, rumus kuadrat eror sebagai berikut:
Dalam prakteknya, ternyata metode dari memilih bandwidth yang meminimalkan fungsi cross- validasi:

Scatter Plot
Scatterplots adalah plot bivariat atau trivariate variabel terhadap satu sama lain. Membantu memahami hubungan antara variabel-variabel dari satu set data. Sebuah pencar miring ke bawah menunjukkan meningkatkan variabel pada sumbu horisontal, variabel pada vertikal sumbu menurun. Sebuah pernyataan analog dapat dibuat untuk memantulkan miring ke atas . Gambar 1.12 menunjukkan diagram pencar miring ke bawah .
Seperti yang sudah diketahui sebelumnya bagian tentang perbandingan marginal pemisahan yang baik antara uang kertas asli dan palsu terlihat untuk variabel diagonal. Pemisahan ini tidak berbeda, karena kedua kelompok agak tumpang tindih.
Kernel yang berbeda menghasilkan perbedaan bentuk dari estimasi kepadatan. Parameter yang paling penting
adalah bandwidth h, dan dapat dioptimalkan misalnya, dengan cross- validasi; Hardle( 1991). Metode cross- validasi meminimalkan kuadrat eror. Hal ini mengukur perbedaan didasarkan pada selisih kuadrat
Fungsi Kernel

Dari perhitungan x tidak hanya bin tengah dapat diberikan kernel estimator. dan komputasi x tidak hanya di pusat-pusat bin memberi kita kepadatan estimator kernel. Inti estimator juga bisa berasal melalui rata-rata tertimbang poin bulat (warping) atau dengan rata-rata histogram dengan asal berbeda, Scott (1985). Tabel 1.5 memperkenalkan beberapa umum digunakan kernel.

Jika meningkatkan dimensi dua dengan menambahkan variabel ketiga, misalnya, X4 diperoleh dalam dimensi tiga seperti yang ditunjukkan pada Gambar 1.13. hal ini diperoleh pemisahan yang lebih baik. Rumus untuk suatu pemisahan adalah kombinasi linear dari elemen vektor pengamatan:
a1x1+a2x2+ ... +a6x6=const (1.12)
maka pada algoritma otomastis ditemukan lebar (a1, ...,a6) diinvestigasikan setelah dimensi ke-2 pada scatter plot untuk variabel, dan dapat disebut "plot draftman"
Karena New York dan Chicago mengandung outside bar maka dapat diputuskan outliers. Maka rata- ratanya :

Maka didapat pada contoh rata- ratanya 168,27. Mediannya 88, pada F (74 ; 183,5) dan nilai ekstrim (63; 778) ini merupakan informasi dasar tentang data. Hasil ditampilkan pada tabel 1.2 Five Number Summary.

Kontruksi Box PLOT
Gambar box dengan pembatas pada FL dan FU
Gambar median dari garis (") dan rata- rata untuk garis titik- titik (:)
Gambar "whiskers" dari masing- masing ujung kotak ke titik yang paling jauh yang bukan outlier.
Tunjukkan outlier sebagai "*" atau " " tergantung apakah outlier tersebut keluar maka dapat direpresentasikan FUL±1,5dF atau FUL±3dF. Labelkan tersebut jika mungkin
Dengan [z] dinotasikan dengan bilangan yang besar yang kurang dari atau sama dengan z

F-spread atau dF didefinisikan dF =FU – FL. Dengan
FU +1,5 dF (1.2)
FL -1,5 dF (1.3)
adalah titik batas luar yang dianggap sebagai outlier
Gambar 1.15 Chernoff-Flury Face untuk observasi Uang Kertas 91 – 110

Ringkasan
Wajah dapat digunakan untuk mendeteksi subkelompok dalam data multivariat.
Subkelompok yang ditandai dengan wajah yang mirip.
Outliers adalah identifikasi oleh wajah-wajah yang ekstrim, misalnya, rambut hitam, senyum atau bahagia wajah.
Jika salah satu unsur X tidak biasa, sesuai elemen wajah berubah bentuk signifikan.

Kurva Andrew
Masalah dasar tampilan grafis data multivariat adalah dimensi tersebut . Scatterplots bekerja dengan baik sampai tiga dimensi (jika menggunakan display interaktif) . Lebih dari tiga dimensi harus dikodekan ke dalam struktur dapat ditampilkan 2D atau 3D (misalnya wajah). Ide dari coding dan merepresentasikan data multivariat dengan kurva disarankan oleh Andrews (1972). Setiap pengamatan multivariat Xi = ( Xi,1, ...,Xi,p ) ditransformasi sebagai berikut :
sehingga pengamatan merupakan koefisien yang koefisien dari apa yang disebut deret Fourier
(t [- , ]).
Misalkan kita memiliki pengamatan tiga dimensi : X1 = (0, 0, 1), X2 = (1 ,0 ,0) dan X3 = (0, 1, 0) . Berikut p = 3 dan representasi sesuai dengan Andrews kurva:
Kurva ini memang cukup berbeda, karena pengamatan X1 , X2 , dan X3 adalah 3D vektor satuan : setiap pengamatan hanya memiliki massa dalam salah satu dari dimensi tiga. Urutan variabel memainkan peranan penting.

Gambar 1.20 Kurva Andrews dari Observasi Uang Kertas 96-105

Ringkasan
Outliers muncul sebagai kurva tunggal Andrews yang terlihat berbeda dari yang lain.
Subkelompok data ditandai dengan satu set kurva simular.
Urutan variabel memainkan peranan penting untuk interpretasi.
Urutan variabel dapat dioptimalkan oleh Principal Component Analisis.
Selama lebih dari 20 pengamatan dapat memperoleh signal-to-ink-ratio jika terlalu banyak kurva berlapis dalam satu gambar .

TERIMA KASIH
Analisis statistik multivariat berkaitan dengan menganalisis dan memahami data pada dimensi tinggi. Dapat diduga pada barisan {xi}ni=1 dari n observasi memiliki variabel vektor X pada p. Ini dapat diartikan xi mempunyai p dimensi dan nilai observasi dari variabel vektor X p dinyatakan sebagai berikut:
xi = (xi1,xi2, ...,xip)
Sehingga X tersusun atas p memiliki variabel acak:
X = (X1, X2, ...,XP)
dimana Xj, untuk j = 1, ..., p adalah dimensi satu untuk variabel acak.
TEKNIK DESKRIPTIF

Untuk jumlah poin luar bar ini lihat Latihan 1.3 . Untuk n= 15 dari data ke 4 adalah
Maka dapat dihitung
dF = FU - FL = 183,5 - 74 = 109,5 (1.4)
FL - 1,5 dF = 74 - 1,5 . 109,5 = -90,25 (1.5)
FU + 1,5 dF = 183,5 + 1,5.109,5 = 347,75 (1.6)

Desain yang dijelaskan dalam Flury dan Riedwyl(1988) menggunakan karakteristik berikut:
ukuran mata kanan
ukuran pupil yang tepat
posisi murid yang tepat
miring mata kanan
posisi horizontal mata kanan
posisi vertikal mata kanan
kelengkungan alis kanan
kepadatan alis kanan
posisi horisontal alis kanan
posisi vertikal alis kanan
kanan garis rambut atas
Garis rambut kanan bawah
garis wajah kanan
kegelapan rambut yang tepat
kanan miring rambut
garis hidung kanan
ukuran yang tepat dari mulut
kelengkungan kanan mulut
19– 36. Seperti no 1. – 18. Diganti sisi kiri

Chernoff
Dalam analisis multivariat dapat memahami data dalam dimensi rendah (misalnya , pada layar komputer 2D ) meskipun struktur yang tersembunyi di dalam dimensi tinggi. Layar numerik struktur data menggunakan koordinat dan berakhir di dimensi lebih dari tiga. Jika kondensasi struktur menjadi elemen-elemen 2D harus mempertimbangkan alternatif teknik grafis . Wajah Chernoff misalnya, memberikan kondensasi seperti informasi dimensi tinggi menjadi wajah yang sederhana. Bahkan wajah adalah cara sederhana untuk grafis menampilkan data dimensi tinggi. Ukuran dari elemen wajah seperti murid, mata, atas dan bawah garis rambut. Ide untuk menggunakan wajah berasal dari Cherno( 1973) dan telah dikembangkan lebih lanjut oleh Bernhard Flury.
BOX PLOT
Pihak berwenang telah mempunyai ukuran variabel acak sebagai berikut:
X1 = panjang uang kertas
X2 = lebar uang kertas (kiri)
X3 = lebar uang kertas (kanan)
X4 = panjang pusat ke batas bawah
X5 = panjang pusat ke batas atas
X6 = panjang diagonal dari pusat
Data berasal dari Flury dan Riedwyl (1988). Hal ini bermaksud untuk mempelajari ukuran-ukuran yang bisa digunakan dalam menunjukkan uang kertas itu asli apa palsu.

Untuk memperkenalkan Five Number Summary, mempertimbangkan dimensi yang lebih kecil, kumpulan data dimensi satu: penduduk terbesar 15 Kota di AS pada tahun 1960 (Tabel 1.1). Dalam Five Number Summary, menghitung kuartil FU, kuartil FL, median dan nilai ekstrem. Urutan statistik {x(1),x(2), ...,x(n)}adalah seperangkat nilai x(1),x(2), ...,x(n) dimana x(1) menunjukkan minimum dan x(n) maksimal.
Median M biasanya memotong himpunan pengamatan menjadi dua bagian yang sama, dan didefinisikan sebagai berikut:


BOX PLOT
Contoh 1.1
Data bank Swiss (lihat Lampiran, Tabel B.2) terdiri dari 200 pengukuran pada uang kertas Swiss. Setengah pengukuran ini berasal dari uang kertas asli, setengah lainnya berasal dari uang kertas palsu. Ukuran uang ditunjukkan pada Gambar 1.1

Gambar 1.1 Uang Kertas Lama Swiss 1000.franc
Kuartil memotong himpunan menjadi empat bagian yang sama, yang sering disebut fourths (disimbolkan F). Menurut Hoaglin, Mosteller dan Tukey (1983) definisi median dapat digeneralisasi untuk perempat, delapan, dan sebagainya. Jika n adalah ganjil, maka letak nilai median adalah dan untuk n genap, maka letak nilai median adalah dengan syarat data telah diurutkan.

Satu kesulitan pada metode deskriptif untuk data yang disajikan dengan dimensi tinggi .Poin yang dapat diambil dari hal tersebut adalah kemudahan dalam pemahaman dan interpretasi. Teknik komputasi modern dimungkinkan dengan penyajian 3D untuk melihat penyajian data pada dimensi tiga. Teknik penggeseran yang dideskripsikan oleh Hardle dan Scott (1992) menyajikan pada struktur dimensi empat yang didukung dinamik 3D kontur densitas atas empat variabel.
Bab ini akan menyelidiki teknik deskriptif dan grafik dasar untuk eksplorasi analisis data
Contoh:
Kota
pop.(10000)
Statistik
New York
778
x(15)
Chicago
355
x(14)
L.A
248
x(13)
Piladelphi
200
x(12)
Detroit
167
x(11)
Baltimore
94
x(10)
Houston
94
x(9)
Cleveland
88
x(8)
Washington D.C
76
x(7)
Saint Louis
75
x(6)
Milwaukee
74
x(5)
San Fransisco
74
x(4)
Boston
70
x(3)
Dallas
68
x(2)
New Orleans
63
x(1)
Data Kota terbesar di. U.S pada tahun 1960
untuk n = 15 maka letak nilai median M = x (8) = 88.
Lanjut dengan cara yang sama untuk mendapatkan perempat. Ambil letak median dan menghitung

Box plot adalah teknik grafik yang menampilkan distribusi variabel. Grafik ini untuk melihat lokasi, kemiringan, penyebaran, panjang sesuatu dan titik terpencil. Hal ini sangat berguna dalam membandingkan perbedaan batch. Box plot adalah representasi grafik dari Five Number Summary.


23/05/2015

#
Click to edit Master title style
23/05/2015
#

Click to edit Master title style
23/05/2015

#
Click to edit Master text styles
Second level
Third level
Fourth level
Fifth level
Click to edit Master text styles
Second level
Third level
Fourth level
Fifth level
Click to edit Master text styles
Click to edit Master text styles
Click to edit Master title style
23/05/2015

#
Click to edit Master text styles
Second level
Third level
Fourth level
Fifth level
Click to edit Master text styles
Second level
Third level
Fourth level
Fifth level
Click to edit Master title style
Click to edit Master text styles
23/05/2015

















#
Click to edit Master title style
Click to edit Master text styles
Second level
Third level
Fourth level
Fifth level
23/05/2015
#

Click to edit Master title style
Click to edit Master subtitle style
23/05/2015

















#

Click to edit Master title style
Click to edit Master text styles






Click to edit Master text styles
Second level
Third level
Fourth level
Fifth level
23/05/2015
#

Click to edit Master title style
Click to edit Master text styles
Second level
Third level
Fourth level
Fifth level
23/05/2015

#

Click to edit Master title style
Click to edit Master text styles
Second level
Third level
Fourth level
Fifth level
23/05/2015






#


Click to edit Master title style
Click icon to add picture
Click to edit Master text styles





23/05/2015
#

Click to edit Master title style
Click to edit Master text styles
Second level
Third level
Fourth level
Fifth level
23/05/2015

#

Lihat lebih banyak...

Comentários

Copyright © 2017 DADOSPDF Inc.