De nombreuses tâches de vision machine, comme la compréhension des scènes urbaines, reposent sur l'apprentissage automatique, et plus particulièrement sur les réseaux de neurones profonds, afin de fournir des résultats suffisamment précis pour permettre des technologies telles que les véhicules autonomes. Les réseaux de neurones profonds convolutifs étant très gourmands en ressources informatiques, les GPU sont généralement la cible matérielle privilégiée pour l'accélération. Cependant, ces applications embarquées ont une consommation d'énergie élevée et des exigences de latence qui ne sont pas compatibles avec l'utilisation des GPU. Les FPGA se sont révélés être une excellente cible pour le déploiement d'applications hautement parallèles, à faible latence et à faible consommation d'énergie de toutes sortes. La conception d'architectures matérielles pour les réseaux de neurones peut être une tâche très fastidieuse, en particulier pour les architectures complexes telles que celles utilisées pour la segmentation sémantique, qui sont composées de couches et de raccourcis spécifiques à différents niveaux du modèle. Des frameworks dédiés comme FINN offrent une solution pour faciliter leur développement. Dans ce travail, nous avons identifié les problèmes potentiels pour l'implémentation d'un tel modèle en utilisant FINN, nous les avons résolus et nous avons évalué les performances ainsi atteintes. Notre modèle, un codeur-décodeur convolutif basé sur U-Net, atteint 62.9 % mIoU avec une quantification entière de 4 bits. Une fois déployée sur la carte FPGA Xilinx Alveo U250, l'architecture de réseau neuronal mise en oeuvre est capable de produire près de 20 images par seconde. Le code de ce travail est open-source et a été rendu public.