Informasi aksesibilitas pelarut pada residu memiliki banyak aplikasi untuk bidang bioinformatika seperti membantu pembuatan model protein, membantu analisis docking, dan analisis permukaan protein. Salah satu masalah dalam prediksi aksesibilitas pelarut adalah tidak adanya standar yang jelas mengenai pembagian kondisi residu terhadap pelarut. Sementara ini hampir semua metode prediksi hanya membagi residu menjadi 2 kelas, yaitu di bagian dalam protein atau di bagian permukaan. Mengingat protein cukup fleksibel dan dinamik, maka dibutuhkan pembagian kelas aksesibilitas yang lebih optimum. Tujuan penelitian ini adalah untuk membuat pipeline untuk menentukan jumlah kelas yang optimum untuk aksesibilitas pelarut dengan k-means clustering. Informasi protein diperoleh dari basis data UniProt dan entry protein yang telah memiliki struktur dengan resolusi terbaik diperoleh dari basis data PDB. Semua struktur diproses dengan DSSP untuk mendapatkan nilai accesible surface area (ASA). Simulasi dengan k-means clustering k=2 sampai dengan k=4 dilakukan dengan input matriks 7 skala fisikokimia. Dari simulasi k-means clustering tidak dapat ditentukan kelas yang paling optimum karena pola histogram dari semua simulasi menunjukkan pola yang mirip. Hasil ini mungkin disebabkan set data yang dipakai meliputi semua protein tanpa mempertimbangkan kelarutan protein dan wilayah transmembran, penggunaan satu nilai threshold untuk semua asam amino, atau karena skala fisika-kimia yang dipakai kurang cocok. |