Scientists: NCBI ( National Center of Biotechnology Information )

Pusat Nasional untuk Bioteknologi Informasi (NCBI) menyediakan akses ke lebih dari 30 yang tersedia untuk publik molekul biologi sumber daya, menawarkan yang efektif . Penemuan ruang melalui tinggi tingkat integrasi data antara skala besar data yang repositories.The landasan untuk banyak layanan adalah GenBank sebuah repositori publik DNA urutan dari lebih dari 133.000 organisme yang berbeda. GenBank dapat diakses melalui pengambilan Entrez sistem, yang mengintegrasikan data dari DNA utama dan protein urutan database, bersama dengan sumber daya untuk taksonomi, peta genom, variasi urutan, gen ekspresi, fungsi dan fenotipe gen, protein struktur dan informasi domain, dan biomedis literatur melalui PubMed . alat Komputasi memungkinkan para ilmuwan untuk menganalisis sejumlah besar data.BLAST adalah urutan program kesamaan adalah instrumental dalam mengidentifikasi gen dan alat-alat features. Genetik lain di dukungan lokus pemetaan genom penyakit, mengidentifikasi gen baru, membandingkan genom, dan yang berkaitan Urutan data untuk protein model structures.A dasar program penelitian dalam biologi molekuler komputasi meningkatkan pengembangan perangkat lunak database dan alat rencana initiatives.Future mencakup integrasi data lebih lanjut, ditingkatkan genom penjelasan dan klasifikasi protein, data tambahan jenis, dan link ke jangkauan yang lebih luas sumber daya.

Perkenalan NCBI

Didirikan pada tahun 1988 sebagai sumber daya nasional untuk mengorganisir dan memberikan informasi biologi molekuler, Nasional Pusat Informasi Bioteknologi (NCBI) memberikan informasi infrastruktur untuk penelitian biologi molekuler. Para NCBI adalah sebuah divisi dari National Library of Medicine (NLM) dalam National Institutes of Health (NIH) dan Departemen Kesehatan dan Layanan Manusia (DHHS). Sejak awal, pendekatan NCBI untuk membangun dan menyediakan akses ke sumber daya bioinformatika telah berpusat pada integrasi data. Tujuannya adalah untuk mencapai tingkat tinggi integrasi data antar repository data skala besar dan bervariasi untuk menciptakan ruang penemuan yang efektif. Dalam 15 tahun pertama, NCBI telah berkembang dari menyediakan satu database, yang GenBank repositori untuk protein DNAand urutan informasi (Benson, Karsch-Mizrachi, Lipman, Ostell, & Wheeler, 2003), dan satu alat analisis, BLAST ® program yang membandingkan satu urutan terhadap semua orang lain dalam database untuk mengidentifikasi yang serupa (Altschul, Gish, Miller, Myers, & Lipman, 1990;. Altschul et al, 1997), untuk menawarkan lebih dari 30 sumber daya database tersedia untuk umum dan pencarian alat. Beberapa sumber arsip yang pada dasarnya repositori data yang disampaikan kepada NCBI oleh organisasi ilmiah komunitas. Lainnya adalah sumber daya yang dihasilkan lebih tinggi dikuratori dengan analisis dan sintesis data dalam arsip besar. Banyak erat dengan GenBank, seperti database derivatif mewakili himpunan bagian khusus, sebagai alat analisis urutan, atau sebagai layanan yang menyediakan link penting antara nukleotida urutan data dan jenis-jenis informasi penting untuk penelitian biologi molekuler. Selain urutan molekul, NCBI layanan penutup berbagai jenis data, termasuk peta genom, fenotipe dan informasi fungsional untuk gen dan protein, umum urutan variasi dalam populasi, kuantitatif informasi pada tingkat ekspresi gen, taksonomi sumber daya untuk mengklasifikasikan organisme berdasarkan urutan data, sumber daya nomenklatur dan alat bantu pencarian terkait, dan literatur biomedis. Para Entrez (Schuler, Epstein, Ohkawa, & Kans, 1996;. Wheeler et al, 2003) sistem pengambilan meletakkan dasar untuk berbasis teks akses ke beragam database, menawarkan satu set kaya link antara catatan dalam database dan seluruh sumber daya bervariasi. Komputasi akses ke sejumlah besar penelitian Data disediakan oleh seperangkat alat analisis yang dikembangkan oleh NCBI ilmuwan. Program BLAST untuk menentukan urutan kemiripan yang digunakan di seluruh NCBI layanan dan instrumental dalam banyak bidang biologi komputasi, termasuk identifikasi gen dan fitur genetik. Lainnya alat komputasi memungkinkan peneliti untuk memetakan lokus penyakit genom, mengidentifikasi gen baru dan varian, bandingkan seluruh genom, dan berhubungan data sekuens untuk model tiga-dimensi (3D) struktur. Bioinformatika merupakan komponen integral dari publik dan swasta penelitian di seluruh dunia, dan akses secara online sumber daya berfungsi sebagai perpanjangan virtual eksperimental laboratorium. Hampir 100.000 BLAST pencarian yang dilakukan setiap hari pada server NCBI saja. Artikel menggambarkan asli Algoritma BLAST, diterbitkan pada tahun 1990 (Altschul et al., 1990), adalah salah satu koran yang paling sangat dikutip dekade pada pertengahan-1999 dengan hampir 9.000 kutipan-kuat indikator peran sentral dalam penelitian biologi molekuler metodologi (Russo & Bunk, 1999). Makalah berikutnya tambahan menggambarkan dan kustomisasi juga pemimpin pak relatif terhadap lainnya baru-baru ini diterbitkan makalah.

Pada artikel ini, kita akan memberikan gambaran dari berbagai jenis data biologis dikelola oleh NCBI, menjelaskan beberapa sumber daya database yang beragam ia menawarkan, menjelaskan mengakses kunci dan alat analisis, dan menyoroti peran bioinformatika penelitian dalam membangun sumber daya komputasi. Semua sumber daya dibahas disini tersedia dari NCBI Web situs di http://www.ncbi.nlm.nih.gov. Informasi tambahan tentang sumber daya dapat ditemukan dalam Buku Pegangan NCBI, terletak di situs Web NCBI dalam database Buku. Beragam Biologi Data-Sebuah Tantangan untuk Layanan Terpadu Tantangan dalam mengelola kekayaan biologi molekuler data yang tersedia untuk peneliti biomedis adalah dalam menyediakan alat yang memfasilitasi kemampuan para ilmuwan untuk membuat koneksi baru antara data yang berbeda dan memperluas pemahaman mereka hubungan biologis. Data sekuens adalah dasar bagi banyak data NCBI analisis dan jasa pengambilan. Meskipun data dalam formulir ini tentu manusia-dibaca sebagai string dari huruf, mereka tidak mudah manusia dipahami sampai dibandingkan dengan lainnya data sekuens. Untuk mendapatkan urutan genom lengkap dari organisme, segmen individual sequencing DNA berkumpul dalam urutan linier yang benar. Mencari tahu bagaimana melakukan yang merupakan tantangan komputasi besar yang dibantu oleh penggunaan peta genom. Peta genom berkontribusi pada genom urutan perakitan proses pada NCBI dan di tempat lain dengan penentuan urutan dan mengidentifikasi landmark biologi fitur bersama genom. Mereka adalah penting dalam mengarahkan perburuan gen dan fitur lain dari genom yang mempengaruhi perkembangan organisme. Insight ke fungsi gen dapat diperoleh dengan mempelajari tiga dimensi struktur protein encode. Sebuah gen yang fungsi dan pengaruh terhadap fenotipe dapat dipengaruhi oleh variasi dalam urutan atau tingkat ekspresi dalam sel. Database di NCBI dirancang untuk memfasilitasi biologi investigasi di samping pengambilan informasi dasar.

Dalam hal itu, mereka dapat dipandang sebagai sebuah sistem hirarki yang mencerminkan alam hubungan yang ada antara biologi entitas. Sebagai contoh, urutan nukleotida terkait dengan urutan asam amino melalui proses biologis penerjemahan. Hubungan ini tercermin dalam database NCBI oleh hubungan antara gen dan produk protein yang tersirat nya. Nukleotida urutan ditemukan dalam sel pada berbagai tingkat sel sistem pengolahan informasi. Dalam database NCBI, medan molekul-jenis diindeks dengan nilai-nilai seperti "DNA" untuk urutan DNA genom, atau "mRNA" untuk transkrip urutan, cermin dua tingkat biologis dari informasi pengolahan dan memungkinkan peneliti untuk fokus pada salah satu dari dua dataset dalam isolasi, atau untuk mengeksplorasi hubungan antara set. Dalam kasus urutan protein dan struktur 3D, biologi hubungan juga tercermin dalam desain database. Hubungan ini tercermin pada NCBI oleh linier urutan huruf asam amino pada protein database urutan dan dalam koordinat 3D set struktur protein dalam sumber daya struktur data. Alat untuk mendeteksi kesamaan dalam sekuens asam amino atau asam amino dalam kedekatan dalam struktur protein 3D memungkinkan ahli biologi untuk menyelidiki database mencari pola pada kedua tingkat. Alat untuk mengintegrasikan urutan dan struktur pola memungkinkan ahli biologi untuk menyelidiki salah satu yang paling halus dan mendasar dari biologi
hubungan-hubungan antara urutan protein dan struktur 3D yang merupakan dasar dari fungsinya.

Beragam Biologi Data-Sebuah Tantangan
untuk Layanan Terpadu

Tantangan dalam mengelola kekayaan biologi molekuler data yang tersedia untuk peneliti biomedis adalah dalam menyediakan alat yang memfasilitasi kemampuan para ilmuwan untuk membuat koneksi baru antara data yang berbeda dan memperluas pemahaman mereka hubungan biologis. Data sekuens adalah dasar bagi banyak data NCBI analisis dan jasa pengambilan. Meskipun data dalam formulir ini tentu manusia-dibaca sebagai string dari huruf, mereka tidak mudah manusia dipahami sampai dibandingkan dengan lainnya data sekuens. Untuk mendapatkan urutan genom lengkap dari organisme, segmen individual sequencing DNA
berkumpul dalam urutan linier yang benar. Mencari tahu bagaimana melakukan yang merupakan tantangan komputasi besar yang dibantu oleh penggunaan peta genom. Peta genom berkontribusi pada genom urutan perakitan proses pada NCBI dan di tempat lain dengan penentuan urutan dan mengidentifikasi landmark biologi fitur bersama genom. Mereka adalah penting dalam mengarahkan perburuan gen dan fitur lain dari genom yang mempengaruhi perkembangan organisme. Insight ke fungsi gen dapat diperoleh dengan mempelajari tiga dimensi struktur protein encode. Sebuah gen yang fungsi dan

Urutan data Lays Foundation
GenBank

Pada inti dari layanan NCBI adalah database DNAsequence disebut GenBank. GenBank tidak hanya berisi urutan manusia data, seperti yang dihasilkan oleh genom manusia proyek, urutan DNA tetapi juga dari lebih dari 133.000 spesies lainnya. Hal ini memungkinkan untuk crossspecies sangat penting analisis komparatif yang selalu penting untuk biologi, dan tetap pada inti dari biologi molekuler penelitian. Selain sekuens DNA sumber, GenBank juga berisi terjemahan urutan protein yang ditentukan oleh daerah dari kode DNAthat untuk protein. GenBank saat ini berisi lebih dari 26 juta urutan DNA, mewakili lebih dari 33 miliar pasangan basa. Sebagai sumber daya publik yang komprehensif, GenBank tergantung pada partisipasi masyarakat ilmiah dan terus dukungan dari editor jurnal dalam mensyaratkan bahwa penulis mengirimkan data mereka ke repositori publik sebagai kondisi publikasi. Urutan data, dengan mendukung bibliografi dan penjelasan biologis, diserahkan langsung ke GenBank oleh individu ilmuwan, genom pusat melakukan skala besar sequencing proyek, dan Kantor Paten AS dan Merek Dagang. Selain itu, cakupan seluruh dunia difasilitasi melalui pengumpulan data kebijakan dan kolaboratif malam pertukaran data dengan database urutan internasional mitra, EMBL data Perpustakaan (Stoesser et al., 2003) dan DNA Data Bank of Japan (Tateno et al., 2002). Oktober 2002 menandai 20 tahun penciptaan dari GenBank, yang telah tumbuh dari 680.338 pasangan basa dalam 1982-22000000000 pada tahun 2002. Database terus tumbuh pada tingkat eksponensial, dua kali lipat kira-kira setiap 15 bulan. Metode akses telah berubah dari waktu ke waktu juga. Dalam 1980-an, akses terutama melalui instalasi lokal dari database komersial dengan pencarian yang disediakan dan analisis perangkat lunak. Pada tahun 1984 ada 120 pita magnetik pelanggan dan rata-rata 5 pengguna online per hari. Magnetic tape digantikan oleh CD-ROM di tahun 1990-an, disertai oleh peningkatan yang stabil dalam akses online juga. Gelora dalam akses Internet yang disertai penggunaan luas dari World Wide Web, bersama dengan pertumbuhan database yang cepat, menyebabkan penghentian distribusi CD-ROM pada pertengahan 1990-an. Hari ini, sementara masih ada banyak instalasi lokal GenBank di universitas-universitas dan perusahaan swasta, Internet adalah metode utama akses, mendukung lebih dari 30.000 pengguna online per hari. Isi dari catatan GenBank sebenarnya hanya teks, sehingga struktur keseluruhan dari catatan GenBank sangat seperti itu dari catatan bibliografi dari database abstrak. Ada bidang teks untuk elemen data seperti aksesi nomor, "title" deskriptif untuk merekam (disebut Definisi suatu Line), klasifikasi taksonomi organisme diwakili, nama dan afiliasi dari menyerahkan atau "Penulis," dan kutipan jurnal untuk urutan yang telah dipublikasikan. Di tempat abstrak catatan bibliografis adalah urutan DNA, yang adalah string huruf. Di tempat istilah indeks yang menyoroti konsep kunci dalam sebuah artikel jurnal, catatan berisi penjelasan GenBank terstruktur yang titik ke daerah signifikansi biologis dalam urutan Data. Penjelasan biologis dibangun berikut seperangkat pedoman yang dikembangkan bersama oleh NCBI dan database internasional berkolaborasi. Ketika sebuah DNA coding wilayah ditentukan sebagai bagian dari penjelasan biologis, terjemahan protein sesuai urutan juga termasuk dalam bagian penjelasan dari catatan. Para nonsequence komponen catatan GenBank yang dicari sebagai field teks dengan sistem pengambilan Entrez. Urutan data diakses oleh suite BLAST dari urutan program pencarian kesamaan.

Seperti arena ilmiah lainnya, biologi molekuler ditandai oleh beberapa laboratorium melakukan simultan penelitian tentang masalah yang sama. Sebagai repositori arsip, GenBank menerima kiriman data dari semua ilmuwan yang berkontribusi, tanpa memperhatikan mengendalikan redundansi data. Duplikat pengiriman data pada dasarnya urutan yang sama dapat berguna untuk keperluan verifikasi dan kontrol kualitas, dan ilmuwan sering menyebabkan informasi yang unik melalui penjelasan biologis yang menyertai kiriman mereka data sekuens. Namun, redundansi data dan hamburan potongan penjelasan biologis di banyak catatan yang berbeda juga dapat mengacaukan upaya untuk menganalisa dan memahami data dan menerapkannya untuk tujuan penelitian lebih lanjut. Akibatnya, database urutan derivatif seperti UniGene, UniSTS, dan RefSeq telah dikembangkan untuk menghapus redundansi dan mengkonsolidasikan informasi. UniGene dan UniSTS menawarkan pemandangan nonredundan dari GenBank subset dan dijelaskan dalam bagian meliputi Entrez.

RefSeq, pada sisi lain, menghasilkan catatan urutan baru sebagai hasil dari yang Kurasi data, dan dijelaskan di bawah ini sebagai sumber daya kedua untuk data urutan DNA. RefSeq-Standar Referensi Urutan untuk Mendukung Genom Anotasi Urutan Referensi (RefSeq) inisiatif bertujuan untuk mengembangkan sumber nonredundan dari urutan referensi yang dapat berfungsi sebagai standar urutan untuk tujuan perhitungan dan genom penjelasan. Mereka memberikan referensi yang stabil untuk gen karakterisasi, mutasi analisis, studi ekspresi, dan polimorfisme penemuan. Bergantung pada analisis komputasi serta pakar review dan sintesis dari literatur yang diterbitkan, RefSeq adalah database dari urutan referensi dikuratori untuk mRNA, DNA genomik, transkrip komputasi berasal, dan urutan protein bagi manusia dan lebih dari 2.000 organisme lain. Baru urutan catatan yang terdiri dari komposit informasi dari catatan beberapa GenBank dan database lain sumber diciptakan untuk RefSeq dan ditugaskan sendiri set nomor aksesi. Yang paling dapat diandalkan model manusia gen NCBI diproduksi dari sekuens transkrip RefSeq sejalan dengan urutan genom manusia dan digunakan sebagai dasar penjelasan gen untuk genom manusia. Ini gen transkrip berbasis tugas kemudian dapat dilengkapi dengan tugas berdasarkan prediksi gen menemukan program seperti GenomeScan.

Prediksi GenomeScan dapat diperkuat Disajikan dengan urutan Tag (EST) keberpihakan dan kesamaan antara produk gen dan protein yang sudah diprediksi dalam database. Semua proses di atas menggunakan varian program BLAST kesamaan urutan pencarian dan didasarkan pada menemukan kesamaan antara DNA dan protein urutan. Sebagai genom kompleks lainnya menjadi tersedia, RefSeq akan terus memenuhi persyaratan untuk nonredundan database yang dapat diandalkan spesies-spesifik urutan transkrip yang di atasnya untuk model dasar gen. Pendekatan RefSeq juga telah diterapkan untuk virus genom dan variasi urutan. Dalam kasus urutan virus, situasi redundansi data lebih rumit dengan jumlah besar strain, isolat dan mutan, sehingga sangat penting untuk membandingkan urutan yang tersedia dan memilih satu full-length genomik urutan untuk masing masing virus sebagai Dalam "urutan referensi." kasus variasi urutan, variasi pemetaan untuk sama lokasi genom ditugaskan ke cluster RefSNP tunggal. Data sekuens dalam GenBank dan RefSeq merupakan pusat banyak aspek penelitian biologi molekuler dan komputasi analisis. Tambahan layanan database yang disediakan oleh NCBI berfungsi untuk menghubungkan data sekuens dalam sumber daya untuk yang lain jenis data yang mendukung NCBI.

Mengorganisir dan Mengakses Sumber Daya Beragam

Akses terintegrasi ke sumber daya data yang beragam adalah tujuan yang pengembangan layanan drive NCBI. Hal ini dilakukan melalui organisasi database dalam Entrez pengambilan sistem, melalui link ke sumber daya terkait, dan melalui alat komputasi yang mendukung penemuan hubungan biologis. Para ASN.1 data standar yang diadopsi oleh NCBI sebagai efisien format untuk enkapsulasi data biologis dan langsung dan dihitung hubungan ke data lain. Standar dipilih dengan pengetahuan bahwa ia harus mengakomodasi tipe data yang muncul sebagai teknik eksperimental baru diciptakannya. Untuk saat ini, standar telah terbukti kuat dan memiliki NCBI diperbolehkan untuk memperluas jangkauan database untuk menutupi segala sesuatu dari urutan dan urutan gen keberpihakan ekspresi data dan struktur protein.

Arah masa Depan

Berdiri item dalam rencana pembangunan NCBI termasuk lebih lanjut integrasi data dan penggabungan tipe data baru sebagai mereka menjadi tersedia dari komunitas ilmiah. saat ini ekspansi usaha termasuk menghubungkan variasi urutan dan ekspresi data untuk struktur 3D dan peta gen manusia. Untuk memenuhi tantangan menganalisis data yang dihasilkan oleh Proyek Genom Manusia dan inisiatif seluruh genom, penekanan lanjutan akan ditempatkan pada inisiatif terkait organisasi informasi dan karakterisasi, seperti sebagai penjelasan genom, klasifikasi protein, dan pengembangan dari dikuratori gen berbasis database. Proyek untuk memperluas literatur-layanan berbasis juga merupakan prioritas tinggi, terutama untuk memasukkan lebih luas buku dan meningkatkan link dengan literatur jurnal teks lengkap.

Sebelum pertengahan 1990-an, GenBank terutama terdiri dari nukleotida urutan data pada skala gen individu atau kecil genomik daerah. Selama 15 tahun terakhir, NCBI telah secara konsisten menghasilkan sumber daya untuk memenuhi perubahan kebutuhan ilmiah untuk mengelola urutan individu dan gen dalam skala besar repositori data. Banyak dari ini didasarkan pada pra-dihitung analisis data set besar digunakan untuk membangun layanan end-user yang memfasilitasi penggunaan data untuk ilmiah penemuan. Contoh termasuk UniGene, RefSeq, dan Blink. Inisiatif penelitian baru-baru ini telah berfokus pada pengembangan database dan peralatan yang diperlukan untuk manajemen data pada skala genom. Hari ini, mikroba lebih dari 130 lengkap genom dan genom lebih dari 10 eukariota lebih tinggi, termasuk manusia, telah disimpan di GenBank. Satu dapat membayangkan suatu masa depan untuk skala genom layanan yang analog pra-dihitung sumber daya dan hubungan untuk seluruh genom adalah sebagai kaya seperti yang telah dibuat untuk data di GenBank.

Source : JOURNAL OF THE AMERICAN SOCIETY FOR INFORMATION SCIENCE AND TECHNOLOGY—March 2005

Scientists

Laman

Jumat, 11 November 2011

NCBI ( National Center of Biotechnology Information )

Tidak ada komentar:

Posting Komentar

Profil

Arsip Blog