Bioinformatika
Bioinformatika
(bahasa Inggris: bioinformatics) adalah (ilmu yang mempelajari)
penerapan teknik komputasional untuk mengelola dan menganalisis
informasi biologis. Komputasi sebetulnya bisa dijelaskan sebagai
menemukan pemecahan masalah dari input yang diberikan dengan menggunakan
algoritma. Ini ialah apa yang disebut teori komputasi, sub-bidang dari
ilmu komputer dan matematika. Selama ribuan tahun, perhitungan dilakukan
dengan pena dan kertas, atau kapur dan batu tulis, atau secara mental,
kadang-kadang dengan bantuan tabel.
Bidang ini mencakup penerapan
metode-metode matematika, statistika, dan informatika untuk memecahkan
masalah-masalah biologis, terutama dengan menggunakan sekuens DNA dan
asam amino serta informasi yang berkaitan dengannya. Contoh topik utama
bidang ini meliputi basis data untuk mengelola informasi biologis,
penyejajaran sekuens (sequence alignment), prediksi struktur untuk
meramalkan bentuk struktur protein maupun struktur sekunder RNA,
analisis filogenetik, dan analisis ekspresi gen.
Sequence
alignment; salah satu aplikasi dasar bioinformatika. Sekuens biologis
yang dianalisis dalam hal ini adalah sekuens asam amino dari empat
protein hemoglobin.
Sejarah
Istilah
bioinformatics mulai dikemukakan pada pertengahan era 1980-an untuk
mengacu pada penerapan komputer dalam biologi. Namun demikian, penerapan
bidang-bidang dalam bioinformatika (seperti pembuatan basis data dan
pengembangan algoritma untuk analisis sekuens biologis) sudah dilakukan
sejak tahun 1960-an.
Kemajuan teknik biologi molekular dalam
mengungkap sekuens biologis dari protein (sejak awal 1950-an) dan asam
nukleat (sejak 1960-an) mengawali perkembangan basis data dan teknik
analisis sekuens biologis. Basis data sekuens protein mulai dikembangkan
pada tahun 1960-an di Amerika Serikat, sementara basis data sekuens DNA
dikembangkan pada akhir 1970-an di Amerika Serikat dan Jerman (pada
European Molecular Biology Laboratory, Laboratorium Biologi Molekular
Eropa). Penemuan teknik sekuensing DNA yang lebih cepat pada pertengahan
1970-an menjadi landasan terjadinya ledakan jumlah sekuens DNA yang
berhasil diungkapkan pada 1980-an dan 1990-an, menjadi salah satu
pembuka jalan bagi proyek-proyek pengungkapan genom, meningkatkan
kebutuhan akan pengelolaan dan analisis sekuens, dan pada akhirnya
menyebabkan lahirnya bioinformatika.
Perkembangan internet juga
mendukung berkembangnya bioinformatika. Basis data bioinformatika yang
terhubung melalui internet memudahkan ilmuwan mengumpulkan hasil
sekuensing ke dalam basis data tersebut maupun memperoleh sekuens
biologis sebagai bahan analisis. Selain itu, penyebaran program-program
aplikasi bioinformatika melalui internet memudahkan ilmuwan mengakses
program-program tersebut dan kemudian memudahkan pengembangannya.
Penerapan utama bioinformatika
Basis data sekuens biologis
Sesuai
dengan jenis informasi biologis yang disimpannya, basis data sekuens
biologis dapat berupa basis data primer untuk menyimpan sekuens primer
asam nukleat maupun protein, basis data sekunder untuk menyimpan motif
sekuens protein, dan basis data struktur untuk menyimpan data struktur
protein maupun asam nukleat.
Basis data utama untuk sekuens asam
nukleat saat ini adalah GenBank (Amerika Serikat), EMBL (Eropa), dan
DDBJ(en) (DNA Data Bank of Japan, Jepang). Ketiga basis data tersebut
bekerja sama dan bertukar data secara harian untuk menjaga keluasan
cakupan masing-masing basis data. Sumber utama data sekuens asam nukleat
adalah submisi langsung dari periset individual, proyek sekuensing
genom, dan pendaftaran paten. Selain berisi sekuens asam nukleat, entri
dalam basis data sekuens asam nukleat umumnya mengandung informasi
tentang jenis asam nukleat (DNA atau RNA), nama organisme sumber asam
nukleat tersebut, dan pustaka yang berkaitan dengan sekuens asam nukleat
tersebut.
Sementara itu, contoh beberapa basis data penting yang
menyimpan sekuens primer protein adalah PIR (Protein Information
Resource, Amerika Serikat), Swiss-Prot (Eropa), dan TrEMBL (Eropa).
Ketiga basis data tersebut telah digabungkan dalam UniProt (yang didanai
terutama oleh Amerika Serikat). Entri dalam UniProt mengandung
informasi tentang sekuens protein, nama organisme sumber protein,
pustaka yang berkaitan, dan komentar yang umumnya berisi penjelasan
mengenai fungsi protein tersebut.
BLAST (Basic Local Alignment Search Tool)
merupakan perkakas bioinformatika yang berkaitan erat dengan penggunaan
basis data sekuens biologis. Penelusuran BLAST (BLAST search) pada
basis data sekuens memungkinkan ilmuwan untuk mencari sekuens asam
nukleat maupun protein yang mirip dengan sekuens tertentu yang
dimilikinya. Hal ini berguna misalnya untuk menemukan gen sejenis pada
beberapa organisme atau untuk memeriksa keabsahan hasil sekuensing
maupun untuk memeriksa fungsi gen hasil sekuensing. Algoritma yang
mendasari kerja BLAST adalah penyejajaran sekuens.
PDB (Protein Data
Bank, Bank Data Protein) adalah basis data tunggal yang menyimpan model
struktural tiga dimensi protein dan asam nukleat hasil penentuan
eksperimental (dengan kristalografi sinar-X dan spektroskopi NMR). PDB
menyimpan data struktur sebagai koordinat tiga dimensi yang
menggambarkan posisi atom-atom dalam protein ataupun asam nukleat.
Penyejajaran sekuens
Penyejajaran
sekuens (sequence alignment) adalah proses penyusunan/pengaturan dua
atau lebih sekuens sehingga persamaan sekuens-sekuens tersebut tampak
nyata. Hasil dari proses tersebut juga disebut sebagai sequence
alignment atau alignment saja. Baris sekuens dalam suatu alignment
diberi sisipan (umumnya dengan tanda "–") sedemikian rupa sehingga
kolom-kolomnya memuat karakter yang identik atau sama di antara
sekuens-sekuens tersebut. Berikut adalah contoh alignment DNA dari dua
sekuens pendek DNA yang berbeda, "ccatcaac" dan "caatgggcaac" (tanda "|"
menunjukkan kecocokan atau match di antara kedua sekuens).
Sequence
alignment merupakan metode dasar dalam analisis sekuens. Metode ini
digunakan untuk mempelajari evolusi sekuens-sekuens dari leluhur yang
sama (common ancestor). Ketidakcocokan (mismatch) dalam alignment
diasosiasikan dengan proses mutasi, sedangkan kesenjangan (gap, tanda
"–") diasosiasikan dengan proses insersi atau delesi. Sequence alignment
memberikan hipotesis atas proses evolusi yang terjadi dalam
sekuens-sekuens tersebut. Misalnya, kedua sekuens dalam contoh alignment
di atas bisa jadi berevolusi dari sekuens yang sama "ccatgggcaac".
Dalam kaitannya dengan hal ini, alignment juga dapat menunjukkan
posisi-posisi yang dipertahankan (conserved) selama evolusi dalam
sekuens-sekuens protein, yang menunjukkan bahwa posisi-posisi tersebut
bisa jadi penting bagi struktur atau fungsi protein tersebut.
Selain itu, sequence alignment juga digunakan untuk mencari sekuens yang
mirip atau sama dalam basis data sekuens. BLAST adalah salah satu
metode alignment yang sering digunakan dalam penelusuran basis data
sekuens.
BLAST menggunakan algoritma heuristik dalam penyusunan alignment.
Beberapa metode alignment lain yang merupakan pendahulu BLAST adalah
metode "Needleman-Wunsch" dan "Smith-Waterman". Metode Needleman-Wunsch
digunakan untuk menyusun alignment global di antara dua atau lebih
sekuens, yaitu alignment atas keseluruhan panjang sekuens tersebut.
Metode Smith-Waterman menghasilkan alignment lokal, yaitu alignment atas
bagian-bagian dalam sekuens. Kedua metode tersebut menerapkan
pemrograman dinamik (dynamic programming) dan hanya efektif untuk
alignment dua sekuens (pairwise alignment)
Clustal adalah program bioinformatika untuk alignment multipel (multiple
alignment), yaitu alignment beberapa sekuens sekaligus. Dua varian
utama Clustal adalah ClustalW dan ClustalX.
Metode lain yang dapat diterapkan untuk alignment sekuens adalah metode
yang berhubungan dengan Hidden Markov Model ("Model Markov Tersembunyi",
HMM). HMM merupakan model statistika yang mulanya digunakan dalam ilmu
komputer untuk mengenali pembicaraan manusia (speech recognition).
Selain digunakan untuk alignment, HMM juga digunakan dalam metode-metode
analisis sekuens lainnya, seperti prediksi daerah pengkode protein
dalam genom dan prediksi struktur sekunder protein.
Prediksi struktur protein
Model protein hemagglutinin dari virus influensa
Secara kimia/fisika, bentuk struktur protein diungkap dengan
kristalografi sinar-X ataupun spektroskopi NMR, namun kedua metode
tersebut sangat memakan waktu dan relatif mahal. Sementara itu, metode
sekuensing protein relatif lebih mudah mengungkapkan sekuens asam amino
protein. Prediksi struktur protein berusaha meramalkan struktur tiga
dimensi protein berdasarkan sekuens asam aminonya (dengan kata lain,
meramalkan struktur tersier dan struktur sekunder berdasarkan struktur
primer protein). Secara umum, metode prediksi struktur protein yang ada
saat ini dapat dikategorikan ke dalam dua kelompok, yaitu metode
pemodelan protein komparatif dan metode pemodelan de novo.
Pemodelan protein komparatif (comparative protein modelling) meramalkan
struktur suatu protein berdasarkan struktur protein lain yang sudah
diketahui. Salah satu penerapan metode ini adalah pemodelan homologi
(homology modelling), yaitu prediksi struktur tersier protein
berdasarkan kesamaan struktur primer protein. Pemodelan homologi
didasarkan pada teori bahwa dua protein yang homolog memiliki struktur
yang sangat mirip satu sama lain. Pada metode ini, struktur suatu
protein (disebut protein target) ditentukan berdasarkan struktur protein
lain (protein templat) yang sudah diketahui dan memiliki kemiripan
sekuens dengan protein target tersebut. Selain itu, penerapan lain
pemodelan komparatif adalah protein threading yang didasarkan pada
kemiripan struktur tanpa kemiripan sekuens primer. Latar belakang
protein threading adalah bahwa struktur protein lebih dikonservasi
daripada sekuens protein selama evolusi; daerah-daerah yang penting bagi
fungsi protein dipertahankan strukturnya. Pada pendekatan ini, struktur
yang paling kompatibel untuk suatu sekuens asam amino dipilih dari
semua jenis struktur tiga dimensi protein yang ada. Metode-metode yang
tergolong dalam protein threading berusaha menentukan tingkat
kompatibilitas tersebut.
Dalam pendekatan de novo atau ab initio, struktur protein ditentukan
dari sekuens primernya tanpa membandingkan dengan struktur protein lain.
Terdapat banyak kemungkinan dalam pendekatan ini, misalnya dengan
menirukan proses pelipatan (folding) protein dari sekuens primernya
menjadi struktur tersiernya (misalnya dengan simulasi dinamika
molekular), atau dengan optimisasi global fungsi energi protein.
Prosedur-prosedur ini cenderung membutuhkan proses komputasi yang
intens, sehingga saat ini hanya digunakan dalam menentukan struktur
protein-protein kecil. Beberapa usaha telah dilakukan untuk mengatasi
kekurangan sumber daya komputasi tersebut, misalnya dengan superkomputer
(misalnya superkomputer Blue Gene dari IBM) atau komputasi
terdistribusi (distributed computing, misalnya proyek Folding@home).
Analisis ekspresi gen
Analisis klastering ekspresi gen pada kanker payudara
Ekspresi gen dapat ditentukan dengan mengukur kadar mRNA dengan berbagai
macam teknik (misalnya dengan microarray ataupun Serial Analysis of
Gene Expression ["Analisis Serial Ekspresi Gen", SAGE]). Teknik-teknik
tersebut umumnya diterapkan pada analisis ekspresi gen skala besar yang
mengukur ekspresi banyak gen (bahkan genom) dan menghasilkan data skala
besar. Metode-metode penggalian data (data mining) diterapkan pada data
tersebut untuk memperoleh pola-pola informatif. Sebagai contoh,
metode-metode komparasi digunakan untuk membandingkan ekspresi di antara
gen-gen, sementara metode-metode klastering (clustering) digunakan
untuk mempartisi data tersebut berdasarkan kesamaan ekspresi gen.
Tidak ada komentar:
Posting Komentar