AUTOMATIC LIP READING BAHASA INDONESIA DENGAN METODE PEMBELAJARAN MESIN

Lip reading atau membaca gerakan bibir menjadi suatu hal yang sangat penting ketika informasi yang disampaikan seseorang tidak terdengar dengan jelas. Akan tetapi, membaca gerakan bibir ini sulit untuk dilakukan bahkan oleh seorang profesional sekalipun. Hal ini dikarenakan pandangan manusia yang su...

Full description

Saved in:
Bibliographic Details
Main Author: Fadillah, Ivan
Format: Final Project
Language:Indonesia
Online Access:https://digilib.itb.ac.id/gdl/view/51402
Tags: Add Tag
No Tags, Be the first to tag this record!
Institution: Institut Teknologi Bandung
Language: Indonesia
id id-itb.:51402
spelling id-itb.:514022020-09-28T15:39:35ZAUTOMATIC LIP READING BAHASA INDONESIA DENGAN METODE PEMBELAJARAN MESIN Fadillah, Ivan Indonesia Final Project lip reading, STCNN, CTC, GRU, WER INSTITUT TEKNOLOGI BANDUNG https://digilib.itb.ac.id/gdl/view/51402 Lip reading atau membaca gerakan bibir menjadi suatu hal yang sangat penting ketika informasi yang disampaikan seseorang tidak terdengar dengan jelas. Akan tetapi, membaca gerakan bibir ini sulit untuk dilakukan bahkan oleh seorang profesional sekalipun. Hal ini dikarenakan pandangan manusia yang subjektif dan efek visual manusia terhadap pergerakan fonem-fonem yang diucapkan seseorang memiliki banyak multi tafsir atau ambigu. Oleh karena kesulitan itu, perlu dibuat model yang secara otomatis yang dapat membaca gerakan bibir (lip reading). Saat ini sudah ada beberapa penelitian model lip reading otomatis, akan tetapi model yang saat ini dibangun beberapa hanya dapat memprediksi kalimat-kalimat bahasa Inggris dan untuk penelitian bahasa Indonesia masih sedikit sekali dan masih perlu dilakukan improvement. Untuk itu, pada tugas akhir ini dilakukan peningkatan akurasi untuk model lip reading bahasa Indonesia. Pembuatan model lip reading bahasa Indonesia ini memanfaatkan sekumpulan dataset video berbahasa Indonesia yaitu dataset AVID yang diperoleh dari penelitian Maulana dan Fanany, (2017). Proses ini diawali dengan beberapa proses preprocessing seperti deteksi wajah, ekstraksi landmark wajah, melakukan alignment wajah dan pemotongan daerah bibir. Hasil pemotongan ini kemudian diekstraksi dengan Spatio Temporal Convolutional Neural Network (STCNN) untuk mendapat fitur yang siap dilatih dengan algoritma Recurrent Neural Network (RNN) dan Connectionist Temporal Classification (CTC). Dari hasil eksperimen yang telah dilakukan pada tugas akhir ini, arsitektur LipNet yang dikombinasikan dengan model correction word memberikan model lip reading bahasa Indonesia dengan performa yang paling baik yaitu dengan pencapaian Word of Error Rate (WER) sebesar 8.26 % yang dievaluasi dari dataset AVID. Evaluasi dari model tersebut memperlihatkan bahwa model yang dihasilkan memiliki performa yang lebih baik dibanding pengamatan langsung yaitu dengan pencapaian Word of Error Rate (WER) sekitar 52.98% (Maulana dan Fanany, 2017). text
institution Institut Teknologi Bandung
building Institut Teknologi Bandung Library
continent Asia
country Indonesia
Indonesia
content_provider Institut Teknologi Bandung
collection Digital ITB
language Indonesia
description Lip reading atau membaca gerakan bibir menjadi suatu hal yang sangat penting ketika informasi yang disampaikan seseorang tidak terdengar dengan jelas. Akan tetapi, membaca gerakan bibir ini sulit untuk dilakukan bahkan oleh seorang profesional sekalipun. Hal ini dikarenakan pandangan manusia yang subjektif dan efek visual manusia terhadap pergerakan fonem-fonem yang diucapkan seseorang memiliki banyak multi tafsir atau ambigu. Oleh karena kesulitan itu, perlu dibuat model yang secara otomatis yang dapat membaca gerakan bibir (lip reading). Saat ini sudah ada beberapa penelitian model lip reading otomatis, akan tetapi model yang saat ini dibangun beberapa hanya dapat memprediksi kalimat-kalimat bahasa Inggris dan untuk penelitian bahasa Indonesia masih sedikit sekali dan masih perlu dilakukan improvement. Untuk itu, pada tugas akhir ini dilakukan peningkatan akurasi untuk model lip reading bahasa Indonesia. Pembuatan model lip reading bahasa Indonesia ini memanfaatkan sekumpulan dataset video berbahasa Indonesia yaitu dataset AVID yang diperoleh dari penelitian Maulana dan Fanany, (2017). Proses ini diawali dengan beberapa proses preprocessing seperti deteksi wajah, ekstraksi landmark wajah, melakukan alignment wajah dan pemotongan daerah bibir. Hasil pemotongan ini kemudian diekstraksi dengan Spatio Temporal Convolutional Neural Network (STCNN) untuk mendapat fitur yang siap dilatih dengan algoritma Recurrent Neural Network (RNN) dan Connectionist Temporal Classification (CTC). Dari hasil eksperimen yang telah dilakukan pada tugas akhir ini, arsitektur LipNet yang dikombinasikan dengan model correction word memberikan model lip reading bahasa Indonesia dengan performa yang paling baik yaitu dengan pencapaian Word of Error Rate (WER) sebesar 8.26 % yang dievaluasi dari dataset AVID. Evaluasi dari model tersebut memperlihatkan bahwa model yang dihasilkan memiliki performa yang lebih baik dibanding pengamatan langsung yaitu dengan pencapaian Word of Error Rate (WER) sekitar 52.98% (Maulana dan Fanany, 2017).
format Final Project
author Fadillah, Ivan
spellingShingle Fadillah, Ivan
AUTOMATIC LIP READING BAHASA INDONESIA DENGAN METODE PEMBELAJARAN MESIN
author_facet Fadillah, Ivan
author_sort Fadillah, Ivan
title AUTOMATIC LIP READING BAHASA INDONESIA DENGAN METODE PEMBELAJARAN MESIN
title_short AUTOMATIC LIP READING BAHASA INDONESIA DENGAN METODE PEMBELAJARAN MESIN
title_full AUTOMATIC LIP READING BAHASA INDONESIA DENGAN METODE PEMBELAJARAN MESIN
title_fullStr AUTOMATIC LIP READING BAHASA INDONESIA DENGAN METODE PEMBELAJARAN MESIN
title_full_unstemmed AUTOMATIC LIP READING BAHASA INDONESIA DENGAN METODE PEMBELAJARAN MESIN
title_sort automatic lip reading bahasa indonesia dengan metode pembelajaran mesin
url https://digilib.itb.ac.id/gdl/view/51402
_version_ 1822272693973549056