Technique for predicting an ambiguous nucleotide symbol in a dna sequence

Thesis (M.Sc.)--Chulalongkorn University, 2004

Saved in:
Bibliographic Details
Main Author: Kitiporn Plaimas
Other Authors: Chidchanok Lursinsap
Format: Theses and Dissertations
Language:English
Published: Chulalongkorn University 2007
Subjects:
Online Access:http://cuir.car.chula.ac.th/handle/123456789/3607
Tags: Add Tag
No Tags, Be the first to tag this record!
Institution: Chulalongkorn University
Language: English
id th-cuir.3607
record_format dspace
spelling th-cuir.36072007-12-19T08:34:18Z Technique for predicting an ambiguous nucleotide symbol in a dna sequence เทคนิคการทำนายสัญลักษณ์นิวคลีโอไทด์ที่คลุมเครือในลำดับดีเอ็นเอ Kitiporn Plaimas Chidchanok Lursinsap Nucleotide sequence Neural networks (Computer sciences) Thesis (M.Sc.)--Chulalongkorn University, 2004 DNA sequences obtained from a DNA sequencer usually contain some ambiguous symbol N, which can be interpreted as either A, or T, or C, or G. This ambiguity can effect the informative analysis of the DNA sequence. This research focused on transforming this problem to a problem of recognizing a prefix sequence of symbol N. By our assumption that nucleotides and their positions may be related to their neighboring nucleotides, the relative positions are used as the feature of the sequence during the learning and recognizing processes of a neural network for each nucleotide. However, recognizing these features from a training set may take a lengthy time. The problem of increasing the training speed in forms of parallel recognition was also investigated. Experimenting on four Eschericia coli genomes, we selected similar regions of about 40,000 bases from any regions. Each region can train an artificial neural network to recognize all similarity and predictthe actual symbol of N. From random query testing sets, the recognition accuracy is more than 80%. ลำดับดีเอ็นเอหรือลำดับของนิวคลีโอไทด์ A, T, C และ G ที่สกัดมาจากเซลล์ของสิ่งมีชีวิตโดยเครื่องอ่านลำดับดีเอ็นเอ อาจให้ลำดับดีเอ็นเอไม่สมบูรณ์ ที่มีบางลำดับของดีเอ็นเอเป็นสัญลักษณ์ที่คลุมเครืออย่างสัญลักษณ์ N ที่หมายถึง A, T, C หรือ G ในงานวิจัยนี้ได้ศึกษาหาวิธีการแก้ปัญหาดังกล่าวไปเป็นปัญหาการรู้จำลำดับก่อนหน้าของสัญลักษณ์ N ด้วนสมมุติฐานที่ว่านิวคลีโอไทด์แต่ละตำแหน่งในลำดับดีเอ็นเอย่อมมีความสัมพันธ์กับนิวคลีโอไทด์ในบริเวณข้างเคียง ดังนั้นตำแหน่งที่สัมพันธ์กันของนิวคลีโอไทด์จึงเป็นรูปแบบหลักที่ใช้ในการสอนและรู้จำของโครงข่ายประสาทเทียมอย่างไรก็ตาม การรู้จำคุณลักษณะทั้งหมดของข้อมูลที่ใช้สอนจะใช้เวลานาน ดังนั้นเราจึงพิจารณาถึงการเพิ่มความเร็วของการรู้จำแบบขนานด้วย และได้ทำการทดสอบกับจีโนมของแบคทีเรียอีโคไลทั้งหมด 4 สารพันธุ์ โดยสุ่มเลือกบริเวณที่มีลำดับบริเวณที่ลำดับการเรียงตัวของนิวคลีโอไทด์ใกล้เคียงกันในดีเอ็นเอด้วยความยาวกว่า 4 หมื่นเบสมาหลายๆ บริเวณด้วยกันโดยไม่คำนึงถึงและอิทธิพลการเกิดนิวคลีโอไทด์ตัวถัดไปได้เพื่อทำนายสัญลักษณ์ที่แท้จริงของ N ได้ ดังนั้นเมื่อทดลองสุ่มข้อมูลเพื่อทดสอบการทำนายของโครงข่ายประสาทเทียมแล้วให้ความถูกต้องในการรู้จำมากกว่า 80% 2007-07-04T03:06:05Z 2007-07-04T03:06:05Z 2004 Thesis 9741764987 http://cuir.car.chula.ac.th/handle/123456789/3607 en Chulalongkorn University 914416 bytes application/pdf application/pdf Chulalongkorn University
institution Chulalongkorn University
building Chulalongkorn University Library
country Thailand
collection Chulalongkorn University Intellectual Repository
language English
topic Nucleotide sequence
Neural networks (Computer sciences)
spellingShingle Nucleotide sequence
Neural networks (Computer sciences)
Kitiporn Plaimas
Technique for predicting an ambiguous nucleotide symbol in a dna sequence
description Thesis (M.Sc.)--Chulalongkorn University, 2004
author2 Chidchanok Lursinsap
author_facet Chidchanok Lursinsap
Kitiporn Plaimas
format Theses and Dissertations
author Kitiporn Plaimas
author_sort Kitiporn Plaimas
title Technique for predicting an ambiguous nucleotide symbol in a dna sequence
title_short Technique for predicting an ambiguous nucleotide symbol in a dna sequence
title_full Technique for predicting an ambiguous nucleotide symbol in a dna sequence
title_fullStr Technique for predicting an ambiguous nucleotide symbol in a dna sequence
title_full_unstemmed Technique for predicting an ambiguous nucleotide symbol in a dna sequence
title_sort technique for predicting an ambiguous nucleotide symbol in a dna sequence
publisher Chulalongkorn University
publishDate 2007
url http://cuir.car.chula.ac.th/handle/123456789/3607
_version_ 1681413101900005376