Anda belum login :: 23 Nov 2024 11:16 WIB
Detail
ArtikelPengklasteran Dokumen Dengan Expectation Maximation Menggunakan Multiresolution KD-Tree  
Oleh: Purwananto, Yudhi ; Purwitasari, Diana ; SN, Anggit
Jenis: Article from Journal - ilmiah nasional - tidak terakreditasi DIKTI
Dalam koleksi: Gematika: Jurnal Manajemen Informatika vol. 10 no. 1 (Dec. 2008), page 27-34.
Topik: Sistem Temu Kembali Informasi; Pengklasteran Dokumen; Expectation Maximation; Ultiresolution Kd-tree; Oracle Text
Ketersediaan
  • Perpustakaan Pusat (Semanggi)
    • Nomor Panggil: GG4
    • Non-tandon: 1 (dapat dipinjam: 0)
    • Tandon: tidak ada
    Lihat Detail Induk
Isi artikelPada sistem temu kembali informasi, pengklasteran dokumen dengan algoritma Expectation Maximation (EM) membutuhkan waktu estimasi parameter nilai tengah miu, variasi sigma dan densitas data p. Untuk mempersingkat iterasi, digunakan struktur data multiresolution kd-tree (MRKD-Tree). Pada pengklasteran, data harus berupa numerik sehingga untuk data dokumen yang berbentuk teks perlu dilakukan prapemrosesan. Pada tahap tersebut setiap dokumen direpresentasikan sebagi vektor sehingga kumpulan dokumen akan membentuk matriks data numerik yang selanjutnya menjadi data input dalam pengklasteran.Kumpulan dokumen disimpan ke database Oracle 9i diprapemrosesan dengan bantuan Oracle Text 9.2 menghilangakn stopword dan melakukan stemming. Matriks dokumen terbentuk dari data-data numerik dalam database yang akan dinyatakan sebagai struktur data MRKD-Tree. Setiap node pada tree menyimpan informasi numpoints, splitdim, splitval, centroid, cov, dan hyperrect. Pada node root nilai numpoints berisi jumlah semua dokumen, kemudian dilakukan pemisahan secara hyperrectangular berdasarkan dimensi dengan rentang nilai terbesar. Pe,isahan terus dilakukan sampai nilai numpointspada suatu node mencapai batas tertentu. Estimasi parameter dengan algoritma EM dihitung menggunakan informasi setiap node pada MRKD-Tree. Uji kebenaran pengklasteran algoritma EM-MRKD-Tree pada dokumen UseNet Collection menghasilkan error +- 3.13% lebih baik daripada algoritma EM untuk data dengan kelas berdekatan dan +- 2.27% untuk kelas berjauhan. Secara rata-rata waktu pengklasteran dokumen dengan algoritma EM-MRKD-Tree lebih baik daripada algoritma EM dengan terpaut +- 10.5 menit. Untuk algoritma EM-MRKD-tree, semakin bertambah jumlah dokumen maka pertambahan waktu yang dibutuhkan dalam pengklasteran cenderung tidak sebanyak dalam algotirma EM. Pengujian perubahan nilai threshold 1%, 2% dan 3% dari jumlah dokumen keseluruhan tidak menunjukkan perubahan waktu pengklasteran yang signifikan.
Opini AndaKlik untuk menuliskan opini Anda tentang koleksi ini!

Kembali
design
 
Process time: 0.015625 second(s)