Technique for predicting an ambiguous nucleotide symbol in a dna sequence
Thesis (M.Sc.)--Chulalongkorn University, 2004
Saved in:
Main Author: | |
---|---|
Other Authors: | |
Format: | Theses and Dissertations |
Language: | English |
Published: |
Chulalongkorn University
2007
|
Subjects: | |
Online Access: | http://cuir.car.chula.ac.th/handle/123456789/3607 |
Tags: |
Add Tag
No Tags, Be the first to tag this record!
|
Institution: | Chulalongkorn University |
Language: | English |
id |
th-cuir.3607 |
---|---|
record_format |
dspace |
spelling |
th-cuir.36072007-12-19T08:34:18Z Technique for predicting an ambiguous nucleotide symbol in a dna sequence เทคนิคการทำนายสัญลักษณ์นิวคลีโอไทด์ที่คลุมเครือในลำดับดีเอ็นเอ Kitiporn Plaimas Chidchanok Lursinsap Nucleotide sequence Neural networks (Computer sciences) Thesis (M.Sc.)--Chulalongkorn University, 2004 DNA sequences obtained from a DNA sequencer usually contain some ambiguous symbol N, which can be interpreted as either A, or T, or C, or G. This ambiguity can effect the informative analysis of the DNA sequence. This research focused on transforming this problem to a problem of recognizing a prefix sequence of symbol N. By our assumption that nucleotides and their positions may be related to their neighboring nucleotides, the relative positions are used as the feature of the sequence during the learning and recognizing processes of a neural network for each nucleotide. However, recognizing these features from a training set may take a lengthy time. The problem of increasing the training speed in forms of parallel recognition was also investigated. Experimenting on four Eschericia coli genomes, we selected similar regions of about 40,000 bases from any regions. Each region can train an artificial neural network to recognize all similarity and predictthe actual symbol of N. From random query testing sets, the recognition accuracy is more than 80%. ลำดับดีเอ็นเอหรือลำดับของนิวคลีโอไทด์ A, T, C และ G ที่สกัดมาจากเซลล์ของสิ่งมีชีวิตโดยเครื่องอ่านลำดับดีเอ็นเอ อาจให้ลำดับดีเอ็นเอไม่สมบูรณ์ ที่มีบางลำดับของดีเอ็นเอเป็นสัญลักษณ์ที่คลุมเครืออย่างสัญลักษณ์ N ที่หมายถึง A, T, C หรือ G ในงานวิจัยนี้ได้ศึกษาหาวิธีการแก้ปัญหาดังกล่าวไปเป็นปัญหาการรู้จำลำดับก่อนหน้าของสัญลักษณ์ N ด้วนสมมุติฐานที่ว่านิวคลีโอไทด์แต่ละตำแหน่งในลำดับดีเอ็นเอย่อมมีความสัมพันธ์กับนิวคลีโอไทด์ในบริเวณข้างเคียง ดังนั้นตำแหน่งที่สัมพันธ์กันของนิวคลีโอไทด์จึงเป็นรูปแบบหลักที่ใช้ในการสอนและรู้จำของโครงข่ายประสาทเทียมอย่างไรก็ตาม การรู้จำคุณลักษณะทั้งหมดของข้อมูลที่ใช้สอนจะใช้เวลานาน ดังนั้นเราจึงพิจารณาถึงการเพิ่มความเร็วของการรู้จำแบบขนานด้วย และได้ทำการทดสอบกับจีโนมของแบคทีเรียอีโคไลทั้งหมด 4 สารพันธุ์ โดยสุ่มเลือกบริเวณที่มีลำดับบริเวณที่ลำดับการเรียงตัวของนิวคลีโอไทด์ใกล้เคียงกันในดีเอ็นเอด้วยความยาวกว่า 4 หมื่นเบสมาหลายๆ บริเวณด้วยกันโดยไม่คำนึงถึงและอิทธิพลการเกิดนิวคลีโอไทด์ตัวถัดไปได้เพื่อทำนายสัญลักษณ์ที่แท้จริงของ N ได้ ดังนั้นเมื่อทดลองสุ่มข้อมูลเพื่อทดสอบการทำนายของโครงข่ายประสาทเทียมแล้วให้ความถูกต้องในการรู้จำมากกว่า 80% 2007-07-04T03:06:05Z 2007-07-04T03:06:05Z 2004 Thesis 9741764987 http://cuir.car.chula.ac.th/handle/123456789/3607 en Chulalongkorn University 914416 bytes application/pdf application/pdf Chulalongkorn University |
institution |
Chulalongkorn University |
building |
Chulalongkorn University Library |
country |
Thailand |
collection |
Chulalongkorn University Intellectual Repository |
language |
English |
topic |
Nucleotide sequence Neural networks (Computer sciences) |
spellingShingle |
Nucleotide sequence Neural networks (Computer sciences) Kitiporn Plaimas Technique for predicting an ambiguous nucleotide symbol in a dna sequence |
description |
Thesis (M.Sc.)--Chulalongkorn University, 2004 |
author2 |
Chidchanok Lursinsap |
author_facet |
Chidchanok Lursinsap Kitiporn Plaimas |
format |
Theses and Dissertations |
author |
Kitiporn Plaimas |
author_sort |
Kitiporn Plaimas |
title |
Technique for predicting an ambiguous nucleotide symbol in a dna sequence |
title_short |
Technique for predicting an ambiguous nucleotide symbol in a dna sequence |
title_full |
Technique for predicting an ambiguous nucleotide symbol in a dna sequence |
title_fullStr |
Technique for predicting an ambiguous nucleotide symbol in a dna sequence |
title_full_unstemmed |
Technique for predicting an ambiguous nucleotide symbol in a dna sequence |
title_sort |
technique for predicting an ambiguous nucleotide symbol in a dna sequence |
publisher |
Chulalongkorn University |
publishDate |
2007 |
url |
http://cuir.car.chula.ac.th/handle/123456789/3607 |
_version_ |
1681413101900005376 |