OPAC

A developement and implementation of a centroid based algorithm capable of tracking moving objects in a sequence of hexagonally sampled binary images .

Type doc. :

Thèses / mémoires

Langue :

Anglais

Auteur(s) :

Boulebtateche; Brahim
Université de Bradford

Année de soutenance:

1987

Sujet(s):

Agents autonomes
apprentissage par renforcement
Q-learning

Voir Plus

Afficher le Résumé

Le thème de cette thèse concerne l’utilisation d’algorithmes hybrides pour affronter le problème que rencontre ’apprentissage par renforcement dans un environnement stochastique de grande dimension décrit par un processus de décision markovien ( PDM). L’apprentissage par renforcement (A/R) permet d’appréhender des problèmes à la dynamique complexe ou mal connue, alors que les algorithmes d’apprentissage supervisé nécessitent une bonne connaissance de la dynamique du système étudié (par description ou par un ensemble d’exemples représentatifs du système) et de ce fait sont mal adaptés à l’étude des systèmes autonomes. L’AR est néanmoins lent et la convergence vers une solution n’est assurée que sous certaines conditions (espace d’états discret et fini ). Le but contribué par cette thèse est de définir une architecture hybride permettant de combiner les deux types d’apprentissage dans le cas d’environnement de grande taille ou infini. L’architecture proposée pour l’agent autonome se compose ainsi d’un noyau apprenant par renforcement utilisant l’algorithme du Q-Learning et d’un module d’incorporation de connaissances à priori sur l’environnement. L’utilisation d’une telle approche hybride permet de limiter l’exploration à des régions intéressantes de l’espace d’état, d’en extraire une bonne description par réduction de la taille de l’espace de situation état-action et de donner une idée intuitive de la solution par réduction de la complexité du problème à apprendre. L’application de cette approche hybride à des exemple-tests standards celui de la navigation d’un agent autonome dans un environnement inconnu avec obstacles (sans aucun modèle) et la stabilisation d’un système non linéaire montre une nette amélioration de performance par rapport à l’algorithme classique du Q-Learning. De plus, l’extension de ce paradigme au cas des systèmes multi- agents où plusieurs agents autonomes apprennent à agir par coopération ou compétition dans un même environnement a été effectuée et a donnée de bons résultats concernant l’applicabilité par excellence de l’apprentissage par renforcement dans de tels environnements complexes.

Exemplaire(s)
Citation APA

N° Bulletin	Date / Année de parution	Titre N° Spécial	Sommaire

Cote	Localisation	Type de Support	Type de Prêt	Statut	Date de Restitution Prévue	Réservation
621.381 BOU TH C1	BIB-Centrale / Thèses		interne	disponible

Boulebtateche, B. & Université de Bradford (1987). A developement and implementation of a centroid based algorithm capable of tracking moving objects in a sequence of hexagonally sampled binary images . (Master) . Bradford.

Détails Document

A developement and implementation of a centroid based algorithm capable of tracking moving objects in a sequence of hexagonally sampled binary images .

BIB-Centrale