The E-government services depend on many archived documents mostly scanned and partially described to be machine searchable in order to be found fast and to offer appropriate responses to citizens ...and to the government personnel as well. In order to improve the existing state, the hybrid solution based on the previous research results is presented. This paper presents an in-depth view of the Web solution that combines different technologies on both the client and the server side thus improving regular search services amd making them accessible to people with dissabilities (e.g. blindness). / Услуги электронного правительства зависят от архивирования документов, которые в основном сканируются и частично описываются с целью обеспечения машинного поиска и быстрого нахождения соответствующих ответов как для пользователей, так и для сотрудников электронного правительства. Для улучшения существующей ситуации было разработано гибридное решение, основанное на результатах предыдущих исследований. В данной работе представлено описание Веб-сервера, комбинирующего различные технологии, направленного на улучшение стандартных услуг поиска и обеспечения их доступности для людей с ограниченными возможностями. / Usluge e-uprave zavise od arhivskih dokumenata koji su uglavnom skenirani i delimično opisani kako bi se mogli mašinski pretraživati i brzo pronalaziti odgovarajući odgovori za građane i službenike. Da bi se poboljšalo postojeće stanje, predstavljeno je hibridno rešenje zasnovano na prethodnim rezultatima istraživanja. Ovaj rad predstavlja opis veb softverskog rešenja koje kombinuje različite tehnologije kako na strani klijenta tako i na strani servera, poboljšavajući redovne usluge pretraživanja i čineći ih pristupačnim za osobe sa invaliditetom.
Currently, one of the most widely used distance measures in speech and speaker recognition is the Euclidean distance between mel frequency cepstral coefficients (MFCC). MFCCs are based on filter bank ...algorithm whose filters are equally spaced on a perceptually motivated mel frequency scale. The value of mel cepstral vector, as well as the properties of the corresponding cepstral distance, are determined by several parameters used in mel cepstral analysis. The aim of this work is to examine compatibility of MFCC measure with human perception for different values of parameters in the analysis. By analysing mel filter bank parameters it is found that filter bank with 24 bands, 220 mels bandwidth and band overlap coefficient equal and higher than one gives optimal spectral distortion (SD) distance measures. For this kind of mel filter bank, the difference between vowels can be recognised for full-length mel cepstral SD RMS measure higher than 0.4 - 0.5 dB. Further on, we will show that usage of truncated mel cepstral vector (12 coefficients) is justified for speech recognition, but may be arguable for speaker recognition. We also analysed the impact of aliasing in cepstral domain on cepstral distortion measures. The results showed high correlation of SD distances calculated from aperiodic and periodic mel cepstrum, leading to the conclusion that the impact of aliasing is generally minor. There are rare exceptions where aliasing is present, and these were also analysed.
Paper presents development of the acoustic model for Croatian language for automatic speech recognition (ASR). Continuous speech recognition is performed by means of the Hidden Markov Models (HMM) ...implemented in the HMM Toolkit (HTK). In order to adjust the HTK to the native language a novel algorithm for Croatian language transcription (CLT) has been developed. It is based on phonetic assimilation rules that are applied within uttered words. Phonetic questions for state tying of different triphone models have also been developed. The automated system for training and evaluation of acoustic models has been developed and integrated with the new graphical user interface (GUI). Targeted applications of this ASR system are stress inoculation training (SIT) and virtual reality exposure therapy (VRET). Adaptability of the model to a closed set of speakers is important for such applications and this paper investigates the applicability of the HTK tool for typical scenarios. Robustness of the tool to a new language was tested in matched conditions by a parallel training of an English model that was used as a baseline. Ten native Croatian speakers participated in experiments. Encouraging results were achieved and reported with the developed model for Croatian language.
U ovom radu opisana je metoda analize brzine govora ili tempa na osnovu uzoraka govora dobivenih s televizijskih kanala koji sadrže tekst izgovorenog u obliku titlova. Za prepoznavanje govora ...korištena je nepovratna neuronska mreža (engl. feed-forward neural network) trenirana s oko 160 sekundi govora. Da bi se odredile granice pojedinačnih riječi napravljena je komponenta za poravnavanje govora s tekstom koja pronalazi prihvatljivo podudaranje slova teksta s fonemima koje je klasificirala neuronska mreža. Komponenta za poravnavanje uzima u obzir kategorije fonema za koje neuronska mreža ima veću preciznost klasifikacije. Preliminarni rezultati pokazuju prosječne promašaje poravnavanja od jednog do tri fonema, zavisno od govornika, sadržaja izgovorenog i kvalitete snimke.
This paper presents the results of experiments in recognition of whispered speech, as a specific mode of verbal communication, using SVM (Support Vector Machines) classifier. For training and testing ...purposes, part of the speech database Whi-Spe with male speakers has been exploited. In matched scenarios average word recognition rate was 99.3% (for normally phonated speech) and 97.8% (for whisper). In mismatched scenarios, recognition of whisper with training on normal speech utterances was 75.4%, whereas recognition of whisper-trained normal speech was with recognition rate of 81.3%.
U radu su opisane mogućnosti sustava SPICE (Speech Processing –
Interactive Creation and Evaluation toolkit for new languages) sa stajališta "naivnog" korisnika. Sustav SPICE kreiran je na ...Sveučilištu Carnegie Mellon i namijenjen je razvoju govornih tehnologija za tzv. necentralne jezike, u koje se ubraja i hrvatski. U radu su opisane osnovne značajke sustava i objašnjeni osnovni principi rada sustava za automatsko prepoznavanje govora i sustava za sintezu govora. Pobliže su opisane faze i pripadni procesi u postupku uhodavanja sustava SPICE. Opisi se temelje na iskustvima u radu sa sustavom, što je rezultiralo izradbom web-sustava za sintezu govora na hrvatskom jeziku.
This paper presents the results of an experimental research of recognition of whispered speech, as a specific form of verbal communication, based on application of artificial neural networks (ANN). ...The paper also describes the speech database of words that were spoken in whispered and normal manner, which was especially created for this study. Part of this database was used for preliminary training and testing the ANN. The case of the speaker dependent recognition was tested, and the results showed 100% accuracy in the case of speech recognition and 99,3% in the case of whisper recognition. In the case of whisper recognition, when ANN was trained for the normal speech the score of whisper recognition was 59%, and vice versa, when the ANN was trained with whisper the speech recognition was 66.4%.
Jedna od danas najčešće korištenih mjera u automatskom prepoznavanju govora i govornika je mjera euklidske udaljenosti MFCC vektora. Algoritam za izračunavanje mel frekvencijskih kepstralnih ...koeficijenata zasniva se na filtarskom slogu kod kojeg su pojasi ekvidistantno raspoređeni na percepcijski motiviranoj mel skali. Na vrijednost mel kepstralnog vektora, a samim time i na svojstva kepstralne mjere udaljenosti glasova, utječe veći broj parametara sustava za kepstralnu analizu. Tema ovog rada je ispitati usklađenost MFCC mjere sa stvarnim percepcijskim razlikama za različite vrijednosti parametara analize. Analizom parametara mel filtarskog sloga utvrdili smo da filtar sa 24 pojasa, širine 220 mel-a i faktorom preklapanja filtra većim ili jednakim jedan, daje optimalne SD mjere koje se najbolje slažu s percepcijom. Za takav mel filtarski slog granica čujnosti razlike između glasova je 0.4-0.5 dB, mjereno SD RMS razlikom potpunih mel kepstralnih vektora. Također, pokazat ćemo da je korištenje mel kepstralnog vektora odrezanog na konačnu dužinu (12 koeficijenata) opravdano za prepoznavanje govora, ali da bi moglo biti upitno u primjenama prepoznavanja govornika. Analizirali smo i utjecaj preklapanja spektara u kepstralnoj domeni na mjere udaljenosti glasova. Utvrđena je izrazita koreliranost SD razlika izračunatih iz aperiodskog i periodičkog mel kepstra iz čega zaključujemo da je utjecaj preklapanja spektara generalno zanemariv. Postoje rijetke iznimke kod kojih je utjecaj preklapanja spektara prisutan, te su one posebno analizirane.
Rad opisuje razvoj akustičkog modela hrvatskog jezika za potrebe sustava za automatsko prepoznavanje govora. Prepoznavanje prirodnog spojenog izgovora ostvaruje se korištenjem skrivenih Markovljevih ...modela (HMM) u okviru alata HTK. U svrhu prilagodbe ovog alata na hrvatski jezik razvijen je novi algoritam za automatsku fonetsku transkripciju hrvatskih riječi. Zasniva se na načelu fonetske asimilacije unutar izgovorenih riječi. Razvijen je i skup fonetskih pitanja koji se koristi za klasifikaciju prilikom udruživanja trifonskih modela sličnih glasova. Razvijena je automatizirana aplikacija za gradnju i evaluaciju akustičkih modela, integrirana s novo razvijenim grafičkim sučeljem. Primjene ovog sustava za prepoznavanje su trening s doziranim izlaganjem stresu (SIT) i terapija izlaganjem primjenom virtualne stvarnosti (VRET). Prilagodljivost akustičkog modela na zatvoren skup govornika vrlo je važna za takve primjene, pa se u radu istražuje primjenjivost alata HTK u tipičnim scenarijima. Robusnost alata na promjenu jezika istražuje se uparenim treniranjem i evaluacijom ekvivalentnog modela engleskog jezika u jednakim uvjetima. U eksperimentima je sudjelovalo deset izvornih hrvatskih govornika. Ostvareni rezultati za hrvatski jezik prikazani u radu pokazuju zadovoljavajuća svojstva razvijenog akustičkog modela hrvatskog jezika.