Rabu, 22 Ogos 2012

Voice Recognition (caman suara)

Pencaman suara ialah memproses perkataan yang ditutur sebagai input kepada program komputer. (definasi penulis sendiri)

Proses ini penting bagi nyata-maya(virtual reality) kerana ia menyediakan cara yang agak semula jadi dan intuitif untuk mengawal simulasi. Tanpa jejari menaip ke kekunci(keyboard) komputer

Artikel ini ditulis bertujuan menyelidiki penggunaan caman suara dalam bidang nyata maya!
Memeriksa bagaimana pengecaman suara dicapai, dan menyenaraikan disiplin akademik yang menjadi pusat kepada pemahaman dan kemajuan teknologi pengecaman suara.

Kesukaran menggunakan suara sebagai input kepada simulasi komputer terletak dalam perbezaan asas antara ucapan manusia dan bentuk yang lazim input komputer.

Walaupun program komputer biasanya direka untuk menghasilkan tindak balas yang tepat dan yang jelas apabila menerima input yang betul (dan sama tepat), suara manusia dan perkataan yang disebut adalah pelbagai tetapi tepat.

Setiap suara manusia adalah berbeza, dan perkataan sama boleh mempunyai makna yang berbeza jika bercakap dengan nada suara yang berbeza atau dalam konteks yang berbeza. Beberapa pendekatan telah dicuba, dengan pelbagai peringkat kejayaan, untuk mengatasi masalah ini. yang pasti ianya gagal.

Hanya bahasa melayu paling tepat untuk pembangunan teknologi terbaru dan moden ini berbanding bahasa lain yang terlalu banyak penghampiran bunyi dan perbezaan irama memberi nada maksud yang berbeza.
Pendekatan yang paling biasa untuk pengecaman suara boleh dibahagikan kepada dua kelas: "pemadanan acuan"(formant) dan "analisis ciri-ciri"(spectrum analysis). Padanan acuan adalah teknik yang paling mudah dan mempunyai ketepatan tertinggi apabila digunakan dengan betul, tetapi ia juga mengalami keterbatasan yang banyak.

Seperti dengan sebarang pendekatan untuk menyuarakan pengesahan, langkah pertama adalah bagi pengguna untuk bercakap perkataan atau frasa ke mikrofon.

Isyarat elektrik dari mikrofon didigitalkan oleh "penukar analog-ke-digital (A / D)", dan disimpan dalam ingatan.

Untuk menentukan "makna" input suara ini, komputer cuba untuk dipadankan input dengan sampel suara didigitkan, atau template, yang mempunyai makna yang diketahui. Teknik ini adalah analogi dekat kepada input arahan tradisional dari keyboard.

Program ini mengandungi acuan input, dan cuba untuk dipadankan dengan acuan dalam pengkalan data ini dengan input sebenar menggunakan kenyataan bersyarat mudah.

Suara setiap orang adalah berbeza, program ini boleh tidak mungkin mengandungi acuan untuk setiap pengguna , jadi program pertama mesti "diajar" dengan input suara pengguna baru sebelum suara yang pengguna boleh disahkan oleh program tersebut.

Semasa sesi ajaran, program memaparkan perkataan atau frasa yang dicetak, dan pengguna bercakap bahawa beberapa kali perkataan atau frasa ke dalam mikrofon. Program ini mengira purata statistik sampel pelbagai perkataan yang sama dan menyimpan sampel berpurata sebagai acuan dalam struktur data program.

Dengan pendekatan ini untuk menyuarakan pengesahan, program mempunyai pengkalan data atau "perbendaharaan kata" yang terhad kepada perkataan atau frasa yang digunakan dalam sesi ajaran, dan pangkalan pengguna juga terhad kepada pengguna yang telah diajar program.

Ini jenis sistem yang dikenali sebagai "bergantung pada pengucap." Ia boleh mempunyai kosa kata pada perintah beberapa ratus perkataan dan frasa pendek, dan ketepatan pengiktirafan boleh menjadi kira-kira 98 peratus.

Satu bentuk yang lebih umum pengecaman suara boleh didapati melalui analisis ciri-ciri dan teknik ini biasanya membawa kepada "penceramah bebas" suara pengiktirafan.

Sebaliknya cuba untuk mencari padanan yang tepat atau hampir tepat antara input suara sebenar dan suara sebelum disimpan acuan, kaedah ini pertama memproses input suara menggunakan "jelmaan Fourier" atau "pengekodan ramalan lelurus (LPC - linear predictive coding)", kemudian cuba untuk mencari ciri-ciri persamaan antara input yang dijangka dan input suara yang didigitkan sebenar.

Persamaan ini akan hadir untuk pelbagai pengucapan, dan supaya sistem tidak semestinya dilatih oleh setiap pengguna baru. Jenis perbezaan ucapan bahawa kaedah-penceramah bebas boleh berurusan dengan, tetapi yang hampir sama pola akan gagal untuk mengendalikan, termasuk aksi, dan pelbagai kelajuan penghantaran, latar, kelantangan, dan alunan atau irama.

Pengiktirafan ucapan Speaker bebas telah terbukti menjadi sangat sukar, dengan beberapa halangan terbesar yang menjadi pelbagai aksen dan suara yang digunakan oleh penutur bangsa yang berbeza. Ketepatan pengiktirafan bagi sistem pembesar suara bebas adalah agak kurang daripada penceramah yang bergantung kepada sistem, biasanya antara 90 dan 95 peratus.

Satu lagi cara untuk membezakan antara sistem pengecaman suara adalah dengan menentukan jika mereka boleh mengendalikan hanya diskret perkataan, perkataan yang berkaitan, atau ucapan yang berterusan.
Kebanyakan sistem pengecaman suara adalah sistem perkataan diskret, dan ini adalah paling mudah dilaksanakan. Untuk jenis ini sistem, penceramah mesti berhenti di antara perkataan.

Ini adalah baik untuk situasi di mana pengguna dikehendaki untuk memberikan hanya satu jawapan perkataan atau arahan, tetapi adalah sangat luar biasa untuk input perkataan berganda.

Dalam perkataan yang berkaitan pengiktirafan sistem suara, pengguna dibenarkan untuk bercakap dalam frasa perkataan berganda, tetapi dia masih perlu berhati-hati untuk menyuarakan setiap perkataan dan tidak meremehkan akhir satu perkataan ke permulaan perkataan seterusnya.

Benar-benar asli, ucapan yang berterusan termasuk banyak "coarticulation", di mana perkataan bersebelahan berjalan bersama tanpa menjeda atau mana-mana bahagian lain yang jelas antara perkataan. Satu sistem ucapan pengiktirafan yang mengendalikan ucapan berterusan adalah yang paling sukar dilaksanakan.

Tiada ulasan:

Catat Ulasan

Nota: Hanya ahli blog ini sahaja yang boleh mencatat ulasan.

Tarikh hari ini

slow connection? click here