AUTOMATIC LIP READING BAHASA INDONESIA DENGAN METODE PEMBELAJARAN MESIN
Lip reading atau membaca gerakan bibir menjadi suatu hal yang sangat penting ketika informasi yang disampaikan seseorang tidak terdengar dengan jelas. Akan tetapi, membaca gerakan bibir ini sulit untuk dilakukan bahkan oleh seorang profesional sekalipun. Hal ini dikarenakan pandangan manusia yang su...
Saved in:
Main Author: | |
---|---|
Format: | Final Project |
Language: | Indonesia |
Online Access: | https://digilib.itb.ac.id/gdl/view/51402 |
Tags: |
Add Tag
No Tags, Be the first to tag this record!
|
Institution: | Institut Teknologi Bandung |
Language: | Indonesia |
id |
id-itb.:51402 |
---|---|
spelling |
id-itb.:514022020-09-28T15:39:35ZAUTOMATIC LIP READING BAHASA INDONESIA DENGAN METODE PEMBELAJARAN MESIN Fadillah, Ivan Indonesia Final Project lip reading, STCNN, CTC, GRU, WER INSTITUT TEKNOLOGI BANDUNG https://digilib.itb.ac.id/gdl/view/51402 Lip reading atau membaca gerakan bibir menjadi suatu hal yang sangat penting ketika informasi yang disampaikan seseorang tidak terdengar dengan jelas. Akan tetapi, membaca gerakan bibir ini sulit untuk dilakukan bahkan oleh seorang profesional sekalipun. Hal ini dikarenakan pandangan manusia yang subjektif dan efek visual manusia terhadap pergerakan fonem-fonem yang diucapkan seseorang memiliki banyak multi tafsir atau ambigu. Oleh karena kesulitan itu, perlu dibuat model yang secara otomatis yang dapat membaca gerakan bibir (lip reading). Saat ini sudah ada beberapa penelitian model lip reading otomatis, akan tetapi model yang saat ini dibangun beberapa hanya dapat memprediksi kalimat-kalimat bahasa Inggris dan untuk penelitian bahasa Indonesia masih sedikit sekali dan masih perlu dilakukan improvement. Untuk itu, pada tugas akhir ini dilakukan peningkatan akurasi untuk model lip reading bahasa Indonesia. Pembuatan model lip reading bahasa Indonesia ini memanfaatkan sekumpulan dataset video berbahasa Indonesia yaitu dataset AVID yang diperoleh dari penelitian Maulana dan Fanany, (2017). Proses ini diawali dengan beberapa proses preprocessing seperti deteksi wajah, ekstraksi landmark wajah, melakukan alignment wajah dan pemotongan daerah bibir. Hasil pemotongan ini kemudian diekstraksi dengan Spatio Temporal Convolutional Neural Network (STCNN) untuk mendapat fitur yang siap dilatih dengan algoritma Recurrent Neural Network (RNN) dan Connectionist Temporal Classification (CTC). Dari hasil eksperimen yang telah dilakukan pada tugas akhir ini, arsitektur LipNet yang dikombinasikan dengan model correction word memberikan model lip reading bahasa Indonesia dengan performa yang paling baik yaitu dengan pencapaian Word of Error Rate (WER) sebesar 8.26 % yang dievaluasi dari dataset AVID. Evaluasi dari model tersebut memperlihatkan bahwa model yang dihasilkan memiliki performa yang lebih baik dibanding pengamatan langsung yaitu dengan pencapaian Word of Error Rate (WER) sekitar 52.98% (Maulana dan Fanany, 2017). text |
institution |
Institut Teknologi Bandung |
building |
Institut Teknologi Bandung Library |
continent |
Asia |
country |
Indonesia Indonesia |
content_provider |
Institut Teknologi Bandung |
collection |
Digital ITB |
language |
Indonesia |
description |
Lip reading atau membaca gerakan bibir menjadi suatu hal yang sangat penting ketika informasi yang disampaikan seseorang tidak terdengar dengan jelas. Akan tetapi, membaca gerakan bibir ini sulit untuk dilakukan bahkan oleh seorang profesional sekalipun. Hal ini dikarenakan pandangan manusia yang subjektif dan efek visual manusia terhadap pergerakan fonem-fonem yang diucapkan seseorang memiliki banyak multi tafsir atau ambigu. Oleh karena kesulitan itu, perlu dibuat model yang secara otomatis yang dapat membaca gerakan bibir (lip reading). Saat ini sudah ada beberapa penelitian model lip reading otomatis, akan tetapi model yang saat ini dibangun beberapa hanya dapat memprediksi kalimat-kalimat bahasa Inggris dan untuk penelitian bahasa Indonesia masih sedikit sekali dan masih perlu dilakukan improvement. Untuk itu, pada tugas akhir ini dilakukan peningkatan akurasi untuk model lip reading bahasa Indonesia.
Pembuatan model lip reading bahasa Indonesia ini memanfaatkan sekumpulan dataset video berbahasa Indonesia yaitu dataset AVID yang diperoleh dari penelitian Maulana dan Fanany, (2017). Proses ini diawali dengan beberapa proses preprocessing seperti deteksi wajah, ekstraksi landmark wajah, melakukan alignment wajah dan pemotongan daerah bibir. Hasil pemotongan ini kemudian diekstraksi dengan Spatio Temporal Convolutional Neural Network (STCNN) untuk mendapat fitur yang siap dilatih dengan algoritma Recurrent Neural Network (RNN) dan Connectionist Temporal Classification (CTC).
Dari hasil eksperimen yang telah dilakukan pada tugas akhir ini, arsitektur LipNet yang dikombinasikan dengan model correction word memberikan model lip reading bahasa Indonesia dengan performa yang paling baik yaitu dengan pencapaian Word of Error Rate (WER) sebesar 8.26 % yang dievaluasi dari dataset AVID. Evaluasi dari model tersebut memperlihatkan bahwa model yang dihasilkan memiliki performa yang lebih baik dibanding pengamatan langsung yaitu dengan pencapaian Word of Error Rate (WER) sekitar 52.98% (Maulana dan Fanany, 2017).
|
format |
Final Project |
author |
Fadillah, Ivan |
spellingShingle |
Fadillah, Ivan AUTOMATIC LIP READING BAHASA INDONESIA DENGAN METODE PEMBELAJARAN MESIN |
author_facet |
Fadillah, Ivan |
author_sort |
Fadillah, Ivan |
title |
AUTOMATIC LIP READING BAHASA INDONESIA DENGAN METODE PEMBELAJARAN MESIN |
title_short |
AUTOMATIC LIP READING BAHASA INDONESIA DENGAN METODE PEMBELAJARAN MESIN |
title_full |
AUTOMATIC LIP READING BAHASA INDONESIA DENGAN METODE PEMBELAJARAN MESIN |
title_fullStr |
AUTOMATIC LIP READING BAHASA INDONESIA DENGAN METODE PEMBELAJARAN MESIN |
title_full_unstemmed |
AUTOMATIC LIP READING BAHASA INDONESIA DENGAN METODE PEMBELAJARAN MESIN |
title_sort |
automatic lip reading bahasa indonesia dengan metode pembelajaran mesin |
url |
https://digilib.itb.ac.id/gdl/view/51402 |
_version_ |
1822272693973549056 |