Anda belum login :: 22 Nov 2024 23:41 WIB
Detail
ArtikelPengembangan sumber bahasa digital dan konsep asas dalam linguistik Melayu/Indonesia  
Oleh: Nomoto, Hiroki
Jenis: Article from Proceeding
Dalam koleksi: KOLITA 17: Konferensi Linguistik Tahunan Atma Jaya Ketujuh Belas Tingkat Internasional, page 7.
Fulltext: 7.Hiroki Nomoto.pdf (234.48KB)
Ketersediaan
  • Perpustakaan PKBB
    • Nomor Panggil: 406 KLA 17
    • Non-tandon: tidak ada
    • Tandon: 1
 Lihat Detail Induk
Isi artikelPada era digital ini hidup kita banyak tergantung pada internet dan perangkat-perangkat digital yang lain. Maka penelitian bahasa juga harus mempergunakan teknologi digital yang semakin canggih. Dalam presentasi ini pemakalah membicarakan pengembangan MALINDO Conc (https://malindo.aa-ken.jp/conc/; Nomoto dkk. 2018c), yakni sistem pencarian korpus khusus untuk bahasa Melayu/Indonesia. Ciri MALINDO Conc yang unik adalah antara lain: (i) pencarian morfologis (korpus dapat dicari dengan informasi jenis afiksasi dan reduplikasi seperti "verba berprefiks di- diikuti verba berprefiks meN-") dan (ii) pencarian lintas variasi (bukan hanya bahasa Indonesia tetapi juga bahasa Melayu di Malaysia, Brunei dan Singapura). Pengembangan MALINDO Conc membutuhkan dua macam persediaan. Keduanya memiliki tantangan masing-masing. Persediaan yang pertama adalah korpus untuk dijadikan data MALINDO Conc. Kami memutuskan untuk menggunakan data web dari Koleksi Korpus Leipzig (Goldhahn dkk. 2012). Masalahnya adalah identifikasi bahasanya kurang memuaskan untuk tujuan linguistik. Data bahasa Melayu mengandung sekian banyak data dari bahasa Indonesia dan begitu juga sebaliknya. Oleh karena itu, kami telah melakukan kembali identifikasi bahasa (Nomoto dkk. 2018a). Walaupun belum sempurna, dibuktikan versi reklasifikasi kami lebih baik daripada versi asli. Kedua, kamus morfologi perlu disediakan terlebih dahulu untuk merealisasi pencarian morfologis. Walaupun sudah terdapat banyak alat penganalisis morfologi, semuanya kurang memuaskan untuk tujuan linguistik karena alat-alat yang dikembangkan oleh para peneliti pemrosesan bahasa alami berdasarkan pengertian konsep dasar linguistik yang kurang tepat. Di antaranya, masalah yang paling besar adalah kekeliruan antara konfiks dan gabungan prefis+sufiks. Contohnya, gabungan prefiks meN- dan sufiks -kan salah dianalisis sehingga menjadi konfiks meN- -kan. Oleh karena itu, kami telah membuat kamus morfologi yang merupakan daftar akar kata (root), bentuk jadian (surface form), prefiks, sufkis, konfiks dan jenis mofologi melalui skrip penganalisis yang kami buat sendiri dan pemeriksaan hasil analisis otomatis secara manual (MALINDO Morph, https://github.com/matbahasa/MALINDO_Morph; Nomoto dkk. 2018b). Saat ini, kami sedang berusaha untuk menambah informasi bentuk dasar (stem) dan lema ke dalam MALINDO Morph. Seperti tadi, sudah banyak "stemmer" dan "lemmatizer" untuk bahasa Melayu/Indonesia yang dikembangkan oleh para peneliti di bidang teknik. Meski demikian, hasil analisisnya ternyata tidak selalu bentuk dasar atau lema. Contohnya, Sastrawi stemmer (https://github.com/sastrawi/sastrawi) tidak menghasilkan bentuk dasar (stem) tetapi akar kata (root). MorphIndo (Larasati dkk. 2011) menghasilkan kirim sebagai lema untuk kirim dan mengirim sebagai lema untuk mengirim padahal sebenarnya lema untuk kedua kata tersebut adalah sama, yaitu mengirim. Masalah seperti ini mungkin disebabkan oleh kebiasaan bermasalah dalam linguistik Melayu/Indonesia, yaitu konsep "root" (akar kata) dan "stem" (bentuk dasar) tidak jelas dibedakan, sehingga sering dianggap sama.
Opini AndaKlik untuk menuliskan opini Anda tentang koleksi ini!

Kembali
design
 
Process time: 0.015625 second(s)