Hjem >> helse >> Helse Hvordan Talegjenkjenning Works

Helse Hvordan Talegjenkjenning Works

The Talegjenkjenning markedet vokser raskt - anslått å være verdt $ 58.4 milliarder innen 2015. Mange kontaktsentre over hele verden gjør at talen basert navigasjonssystem i sine callsentre, hvor kunder kan bare si navnet på den tjenesten de ønsker å nytte, heller enn å navigere lange menyer gjennom tone. Utallige virksomheter i ulike bransjer bruker også tale løsninger for å automatisere og digitalisere sine penn og papir prosesser. Nå nylig, har virtuelle assistenter som Apples Siri og Micromax er AISHA blitt svært populære blant forbrukerne.

Selv om stadig flere mennesker nyter fordelene Talegjenkjenning teknologi i dag, få folk faktisk forstår hvordan det fungerer. Teknologien er faktisk komplisert, og avanserte tale motorer krever mange års forskning og utvikling.

Når du snakker, lager du vibrasjoner i luften. Analog-til-digital omformer (ADC) digitaliserer lyden ved å ta nøyaktige målinger av bølgen ved hyppige intervaller, deretter filtrering av lyd for å fjerne uønsket støy.

Neste signalet er delt inn i små segmenter og matcher disse segmentene til kjente fonemer i det aktuelle språket. Et fonem er den minste elementet i et språk - en representasjon av lydene vi lager og satt sammen til meningsfulle uttrykk.

Til slutt, undersøker programmet fonemer i sammenheng med de andre fonemer rundt dem. Det kjører den kontekstuelle fonem tomten gjennom en kompleks statistisk modell og sammenligner dem med et stort bibliotek av kjente ord, uttrykk og setninger. Programmet deretter bestemmer hva brukeren sa og enten utganger det som tekst eller problemer en datamaskin kommando.

Det siste trinnet er uten tvil det mest vanskelig. Talegjenkjenningssystemer har gått gjennom mange videreutviklinger over tid for å skape den mest nøyaktige måten å analysere fonemer. Dagens talegjenkjenningssystemer bruke kraftige og kompliserte statistiske modellering systemer med sannsynlighet og matematiske funksjoner for å bestemme den mest sannsynlige utfallet.

Denne prosessen er mest komplisert for fraser og setninger, som systemet har til å finne ut hvor hvert ord stopper og starter. Programmet har til å analysere fonemer bruke uttrykket som kom før det for å få det riktig. Utfordringen blir enorm som vokabular av talen motoren vokser. For eksempel, hvis et program har et vokabular på 60.000 ord, kan en sekvens av tre ord være en hvilken som helst av 216 billioner muligheter.

Den eneste måten å skape en Talegjenkjenning system som er sofistikert nok til å overvinne disse utfordringene er ved å gi statistisk system med tusenvis av timer med menneske-transkribert tale og hundrevis av megabyte med tekst.

Mer info: /