Speech synthesis
Speech
synthesis adalah transformasi dari teks ke arah suara (speech). Transformasi
ini mengkonversi teks ke pemadu suara (speech synthesis) yang sebisa mungkin
dibuat menyerupai suara nyata, disesuaikan dengan aturan – aturan pengucapan
bahasa.TTS (text to speech) dimaksudkan untuk membaca teks elektronik dalam
bentuk buku, dan juga untuk menyuarakan teks dengan menggunakan pemaduan suara.
Sistem ini dapat digunakan sebagai sistem komunikasi, pada sistem informasi
referral, dapat diterapkan untuk membantu orang-orang yang kehilangan kemampuan
melihat dan membaca.
Ada beberapa
masalah yang terdapat pada pemaduan suara, yaitu:
1) @ User sangat sensitif terhadap
variasi dan informasi suara. Oleh sebab itu, mereka tidak dapat memberikan
toleransi atas ketidaksempurnaan pemadu suara.
2) @ Output dalam bentuk suara tidak
dapat diulang atau dicari dengan mudah.
3) @ Meningkatkan keberisikan pada
lingkungan kantor atau jika menggunakan handphone, maka akan meningkatkan biaya
pengeluaran.
Lingkungan
dari aplikasi pemadu suara adalah:
Bagi
tunanetra, pemadu suara menawarkan media komunkasi dimana mereka dapat memiliki
akses yang tidak terbatas. Lingkungan dimana visual dan haptic skill user
berfokus pada hal lain.
Contohnya:
sinyal bahaya pada kokpit pesawat udara.
Sejarah Speech Synthesis
Upaya yang
paling awal untuk menghasilkan lahirnya pemandu suara, pada abad XVIII.
Terlepas dari kenyataan bahwa upaya pertama adalah bentuk mesin mekanis,
kita dapat mengatakan hari ini bahwa synthesizer sudah berkualitas
tinggi. Pada tahun 1779 di St Petersburg, Rusia Profesor Kratzenshtein
Kristen fisiologis menjelaskan perbedaan antara lima vokal panjang
(/ A /, / e /, / i /, / o /, dan / u /) dan membuat alat untuk
menghasilkan mereka artifisial. Tahun 1791 di Wina, Wolfgang von Kempelen
memperkenalkan nya “Akustik-Mekanik Mesin Speech”. Dalam sekitar
pertengahan 1800-an Charles Wheatstone dibangun terkenal versi mesin
berbicara von Kempelen’s.
Generasi
dari sistem pemaduan suara ini dapat dibagi ke dalam 3 masa, yaitu:
1) Generasi pertama (1962-1977). Format
sintesis dari fonem adalah teknologi dominan. Teknologi ini memanfaatkan aturan
berdasarkan penguraian fonetik pada kalimat untuk kontur frekuensi forman.
Beberapa sintesis masih miskin atau kurang dalam kejelasan dan
kealamiannya.
2) Generasi kedua (1977-1992). Metode
pemadu suara adalah diphone diwakilkan dengan parameter LPC. Hal tersebut
menunujukkan bahwa kejelasan yang baik pada pemadu suara dapat diperoleh dengan
andal dari input teks dengan menggabungkan diphone yang sesuai dengan unit.
Kejelasan meningkat selama sintesis forman, tetapi kealamian dari pemadu suara
masih tetap rendah.
3) Generasi ketiga (1992-sekarang).
Generasi ini ditandai dengan metode ‘ sintesis pemilihan unit’ yang diperkenalkan
dan disempurnakan oelh Sagisaka di Labs ATR Kyoto. Hasil dari pemandu suara
pada periode ini sangat mendekati human-generated speech pada bagian
kejelasan dan kealamian,
Teknologi
pemadu suara modern melibatkan metode dan algoritma yang canggih dan rumit.
alat pemadu suara dari keluarga “Infovox” mungkin mejadi salah satu multi
bahasa TTS yang paling dikenal saat ini. Versi komersial pertamanya, Infovox-SA
101, dikembangkan pada tahun 1982 di Institute Teknologi Royal, Swedia dan
didasarkan pada sintesis forman. AT & T Bell Laboratories (Lucent
Technologies) juga memiliki tradisi yang sangat panjang tentang pemandu suara
(speech synthesis). TTS lengkap yang pertama didemostrasikan di Boston pada
tahun 1972 dan diliris pada tahun 1973. Hal ini didasarkan pada model
artikulatoris yang sikembangkan oleh Ceceil Coker (Klatt 1987). Pengembangan
proses dari sistem penggabungan sintesis ini dimulai oleh Joseph Olive pada
pertengahan tahun 1970-an (Bell Labs 1997). Sistem ini sekarang sudah tersedia
untuk bahasa Inggris, Perancis, Spanyol, Italia, Jerman, Rusia, Rumania, Cina,
dan Jepang (Mcbius et al 1996).
Speech Synthesis
Speech synthesis atau pidato
sintesis adalah
produksi buatan manusia pidato. Sebuah sistem komputer yang digunakan untuk
tujuan ini disebut speech synthesizer, dan dapat diimplementasikan dalam
perangkat lunak atau perangkat keras. text-to-speech (TTS) sistem bahasa normal
mengkonversi teks ke dalam pidato. sistem lain membuat representasi linguistik
simbolis seperti transkripsi fonetik bicara.
Pidato
buatan dapat dibuat dengan potongan-potongan concatenating pidato yang direkam
disimpan dalam database. Sistem berbeda dalam ukuran pidato yang disimpan unit;
sebuah sistem yang menyimpan telepon memberikan rentang output terbesar, tapi
mungkin kurang jelas. Untuk keperluan khusus domain, yang menyimpan seluruh
kata-kata atau kalimat memungkinkan output yang berkualitas tinggi. Atau,
synthesizer dapat menggabungkan sebuah model dari sistem vokal dan
karakteristik suara manusia lain untuk membuat yang benar-benar “sintetik”
output suara. Kualitas synthesizer pidato dinilai oleh kesamaan dengan suara
manusia dan kemampuannya untuk dipahami. semua dimengerti text-to-speech
program yang memungkinkan orang-orang dengan gangguan visual atau membaca untuk
mendengarkan karya-karya tulis di komputer rumah. Banyak sistem operasi
komputer termasuk alat bicara sejak awal 1980-an.
A text-to-speech system (atau
“mesin”) adalah
terdiri dari dua bagian: front-end dan back-end. Front-end memiliki dua tugas
utama. Pertama, mengubah teks mentah berisi simbol seperti angka dan singkatan
menjadi setara dengan tertulis-kata-kata. Proses ini sering disebut normalisasi
teks, pra-pengolahan, atau tokenization. Front-end kemudian menetapkan
transkripsi fonetik untuk setiap kata, dan membagi dan menandai teks ke
prosodic unit seperti frase dan kalimat. Proses transkripsi fonetik untuk
menetapkan kata-kata ini disebut teks-ke-fonem atau grafem-ke-fonem konversi.
Fonetis transkripsi dan informasi ilmu persajakan bersama-sama membentuk
representasi simbolik yang linguistik output dengan front-end. Back-end-sering
disebut sebagai synthesizer-maka mengubah representasi linguistik simbolik
menjadi suara.
Suara teks-to-speech engine di Vista adalah Microsoft Anna, dan
Microsoft Sam pada Windows XP. Vista pengguna dapat mendengar suara sangat
jelas dari Anna, dan kualitas suara Anna Microsoft jauh lebih baik daripada
Microsoft Sam. Sintesis pidato Windows program yang disebut narator telah
dikirimkan dengan Windows2000, Windows XP dan Vista. Bila pengguna Windows
ingin mendapatkan suara tidak hanya membaca tetapi juga file audio seperti
gelombang dan file mp3 pidato, mereka dapat menginstal bebas teks-to-speech dan
panopreter text-to-mp3 aplikasi yang ditawarkan oleh panopreter.com. Hal
membaca file teks dan mengkonversi pidato menjadi gelombang dan mp3 file,
pengguna dapat mengimpor file audio yang dihasilkan ke perangkat portabel, dan
mendengarkan mereka sambil berjalan, jogging atau Komuter untuk bekerja.
Speech
sintesis menjadi alat bantu teknologi vital dan penerapannya di daerah ini
sangat signifikan dan luas, sekarang umum digunakan oleh orang-orang dengan
disleksia dan kesulitan membaca lainnya maupun oleh anak-anak pra-melek.
Sementara itu, aplikasi sintesis pidato dan gadget pada bahasa alat belajar.
Teknik sintesis Pidato sekarang juga digunakan dalam produksi hiburan seperti
game, anime dan yang sejenis, dan banyak digunakan dalam produk telekomunikasi
juga.
SUMBER :
Tidak ada komentar:
Posting Komentar