Page de Garde

Contribution à l'analyse acoustico-phonétique et à la reconnaissance par l'approche stochastique de la langue arabe.

Type doc. :

Thèses / mémoires

Langue :

Français

Année de soutenance:

2004
Voir Plus

Afficher le Résumé

Le travail réalisé lors de cette thèse s’inscrit dans le cadre général de la reconnaissance automatique de la parole (RAP) robuste. La plupart des systèmes RAP fonctionnent correctement dans un environnement aux caractéristiques acoustiques et sonores proches de l'environnement dans lequel s’est fait l'entraînement mais les performances vont se dégrader notablement si les conditions environnementales sont très différentes. Cette sensibilité au bruit est un des freins majeurs à l’emploi de la reconnaissance automatique de la parole dans des applications dites grand public. Notre objectif, lors de cette thèse, est de rendre le système de reconnaissance insensible, c’est-àdire robuste, aux changements de conditions environnementales, en proposant une nouvelle technique de modélisation acoustique capable d’améliorer le signal de parole à l’entrée du système de reconnaissance. Cette technique se fondant sur l’exploitation des indices perceptuels de la parole, permettant ainsi de traiter des bruits d’ordre plus général (bruit blanc, rose, industriel ….etc.). En un premier temps nous avons comparé différentes techniques de modélisation acoustique, les plus utilisées dans cette discipline, et qui résolvent efficacement le problème de la RAP dans le milieu non bruité, mais les performances du système sont loin d’être satisfaisantes en présence de bruit, la plus part de ces paramètres acoustiques sont basés sur l’étude du spectre d’énergie. Nous avons étudié les paramètres acoustiques robustes proposés par Donglai Zhu et K.K. Paliwal qui sont fondés sur le produit du spectre d’amplitude par le spectre de phase. Ces coefficients nous ayant permis d’obtenir de bons taux de reconnaissance jusqu’à des rapport signal-sur-bruit (SNR : signal to noise ratio) de 5dB avec des conditions de bruits variées qui prouvent qu’il est possible de mettre en oeuvre un système résistant à des environnements sonores différents et qui n’ont pas été rencontrés lors de la phase d’apprentissage. Les résultats obtenus se dégradent cependant à mesure que le niveau du bruit augmente, nous avons proposé une phase de prêt traitement du signal parole qui permet un débruitage adaptatif efficace et qui affecte peu les composantes spectrales utiles du signal parole par l’introduction de la décomposition en paquet d’ondelettes perceptuel (PWP : Perceptual wavelet packet), cette décomposition psycho acoustique dépend de la perception de l’oreille humaine. Deux techniques de seuillages ont été envisagées : le seuillage doux et le seuillage doux modifié à fin de ne pas éliminé les composantes de haute fréquence qui sont moins énergétique que les basses fréquences, tel que le cas pour les consones. Le seuil adaptatif a été obtenu par la méthode de seuillage pénalisé. Toutes les expériences ont été effectuées à l’aide d’une base de données vocale acquise au niveau du laboratoire LASA, à l’université de Annaba, cette base contient 9000 mots (chiffre arabes) prononcés par 90 locuteurs (46 hommes et 44 femmes) de façon isolée. Les études ont été faites sur le corpus de bruit préenregistré Noisex-92 développé par l’institut TNO à Soesterberg aux Pays-Bas. Les séquences bruitées sont obtenues en additionnant des segments de bruit à la parole propre avec différents (SNR). Toutes les expériences menues dans cette thèse ont été évaluées par le système de reconnaissance Markovien de référence fondé sur les HMM continus. A fin de réduire au minimum la tache de programmation, nous avons utilisé la plate-forme logicielle HTK (Hidden Markov Model Toolkit) distribuée par l’université de Cambridge, nous avons choisie cette plate forme pour sa convivialité, sa souplesse et sa grande liberté de choix laissée tout au long de la construction des différentes parties du système de reconnaissance. Les comparaisons effectuées entre les paramètres acoustiques robustes proposés et les paramètres de références qui sont les MFCC ont montré, que nos paramètres améliorent le taux de reconnaissance du système de référence de 44,71 % pour un SNR de -5dB, et avec une valeur moyenne de 14,8 % calculée sur 7 niveau de SNR pour le signal parole affecté par le bruit blanc gaussien.



N° Bulletin Date / Année de parution Titre N° Spécial Sommaire
Cote Localisation Type de Support Type de Prêt Statut Date de Restitution Prévue Réservation
621.381 AMA TH 2 BIB-Centrale / Thèses interne disponible
Amara korba, M. & Mouldi, B. (2004). Contribution à l'analyse acoustico-phonétique et à la reconnaissance par l'approche stochastique de la langue arabe. (Magister) . Annaba.