Différences entre versions de « Projets:Chuchoter »
(Created page with "== Description du projet == == Cahier des charges == == Analyse de l'existant == == Equipe (Porteur de projet et contributeurs) == * Porteurs du projet : * Concepteurs/con...") |
|||
(15 versions intermédiaires par 2 utilisateurs non affichées) | |||
Ligne 1 : | Ligne 1 : | ||
== Description du projet == | == Description du projet == | ||
+ | |||
+ | [[File:Prototype .jpg|thumb]] | ||
+ | |||
+ | Malgré l'existence de nombreuses prothèses auditives sur le marché, il semble que la filtration des bruits ambiant laisse encore à désirer. Ce projet vise à prototyper une prothèse auditive tirant parti des récentes avancées dans le domaine du Deep Learning. | ||
+ | |||
+ | L'usage du Deep Learning nous semble particulièrement approprié pour différentes raisons: | ||
+ | *La communauté Deep Learning est très ouverte: les articles de recherches sont rendus accessibles gratuitement, accompagné d'implémentation open source robustes et bien documentées. Cela rends ces techniques faciles à exploiter. | ||
+ | *Il est possible de faire tourner ces algorithmes sur du hardware abordable et disponible au grand publique (Nvidia Jetson Nano). | ||
+ | *Le Deep Learning pour apporter une robustesse plus difficile à atteindre avec du traitement du signal classique. Par exemple, un filtrage par bande ne peut pas filtrer les bruits dont les fréquences chevauchent la voix. À l'inverse, un algorithme de Deep Learning peut reconstruire le signal et ainsi filtrer les bruits, peu importe leur fréquence. | ||
+ | *Il est possible d'entrainer des réseaux de neurones pour différentes tâches. On peut imaginer filtrer les bruits ambiants et isoler les voix dans un contexte de réunion ou isoler la musique et supprimer les voix dans un contexte de concert. | ||
+ | |||
+ | Ce prototype utilise le code de l'article [https://arxiv.org/abs/2006.12847 Real Time Speech Enhancement in the Waveform Domain (Interspeech 2020)] et le rends deployable sur un Jetson Nano. Couplé à une interface audio disposant de micros cela permet d'amplifier les voix et de les retransmettre dans un casque audio. | ||
+ | |||
+ | Les deux principaux challenges restants sont: | ||
+ | *La latence. 73.3ms sont actuellement nécessaires pour traiter le signal. Le son des interlocuteurs est donc un peu trop décalé pour qu'il soit synchronisé avec les lèvres. Cela rends l'association des mouvement de la bouche aux sons difficile. S'entendre en double avec cette latence rend également l'expression orale compliquée. Heureusement, il semble possible d'optimiser le modèle (cf. [https://developer.nvidia.com/tensorrt TensorRT]). | ||
+ | *Transmettre le son à l'utilisateur. Utiliser un casque audio par dessus un appareil auditif est dangereux (risque de larsen) et il semble difficile de se procurer du hardware de prothèse auditives. Une piste pourrait être de reverse engineer une aide auditive pour comprendre comment utiliser ses micros et son haut-parleur? Ou utiliser une prothèse auditive disposant d'une connectivité bluetooth? Ou continuer d'utiliser un simple casque pour les malentendants non appareillés. | ||
== Cahier des charges == | == Cahier des charges == | ||
== Analyse de l'existant == | == Analyse de l'existant == | ||
+ | |||
+ | Plusieurs solutions d'aide auditive utilisant du Machine Learning existent dans le commerce mais, à notre connaissance, il n'en existe qu'une seule permettant un traitement poussé du son et une très bonne expérience d'écoute. | ||
+ | |||
+ | Cette solution, développée par la startup Whisper AI, n'est disponible que sur le marché nord américain et fonctionne de la manière suivante. L'aide auditive embarque le même genre de technologies que ses concurrents, permettant un traitement basique du son, mais elle est accompagnée d'un boîtier appelé "Whisper Brain" équipé de matériel plus performant et utilisé pour traiter le son avec des algorithmes plus gourmands en ressources. | ||
+ | |||
+ | Le boîtier tient dans une poche et permet également de contrôler le volume, ainsi que de choisir l'environnement sonore manuellement entre "musique", "extérieur", "télévision", "bruit" et "silence", afin d'optimiser les paramètres des algorithmes pour l'environnement dans lequel se trouve le porteur. | ||
+ | |||
+ | Pour plus d'informations, vous pouvez visiter [https://whisper.ai/ le site de Whisper AI]. | ||
== Equipe (Porteur de projet et contributeurs) == | == Equipe (Porteur de projet et contributeurs) == | ||
− | * Porteurs du projet : | + | * Porteurs du projet : Armand du Parc Locmaria |
− | * Concepteurs/contributeurs : | + | * Concepteurs/contributeurs : Jean Dunston, Pierre Herduin, Adrien Loizeau, Paul Marquereau |
− | * Animateur (coordinateur du projet) | + | * Animateur (coordinateur du projet) : ECE Paris |
− | * Fabmanager référent | + | * Fabmanager référent : |
− | * Responsable de documentation | + | * Responsable de documentation : Armand du Parc Locmaria |
== Matériel nécessaire == | == Matériel nécessaire == | ||
+ | *1x Nvidia Jetson Nano Developper Kit (4GB) - 144€ | ||
+ | *1x Interface Audio (nous utilisons un Zoom H4N mais n'importe quel micro/casque compatible Linux devrait fonctionner) - 10-200€ | ||
+ | *1x Batterie Portable (5V >2A) - 10-20€ | ||
+ | *1x Casque Audio - 10-100€ | ||
+ | *1x USB A vers barrel jack 2.1mm - 10€ | ||
+ | *1x Dongle Wifi - 10€ | ||
==Outils nécessaires== | ==Outils nécessaires== | ||
+ | Aucuns | ||
==Coût== | ==Coût== | ||
− | + | 194-484€ | |
− | |||
==Fichiers source== | ==Fichiers source== | ||
+ | https://github.com/Armandpl/jetson_denoiser | ||
==Etapes de fabrication pas à pas== | ==Etapes de fabrication pas à pas== | ||
− | + | Voir fichier Readme sur Github. | |
− | |||
− | |||
− | |||
− | |||
− | |||
− |
Version actuelle datée du 10 février 2022 à 17:39
Description du projet
Malgré l'existence de nombreuses prothèses auditives sur le marché, il semble que la filtration des bruits ambiant laisse encore à désirer. Ce projet vise à prototyper une prothèse auditive tirant parti des récentes avancées dans le domaine du Deep Learning.
L'usage du Deep Learning nous semble particulièrement approprié pour différentes raisons:
- La communauté Deep Learning est très ouverte: les articles de recherches sont rendus accessibles gratuitement, accompagné d'implémentation open source robustes et bien documentées. Cela rends ces techniques faciles à exploiter.
- Il est possible de faire tourner ces algorithmes sur du hardware abordable et disponible au grand publique (Nvidia Jetson Nano).
- Le Deep Learning pour apporter une robustesse plus difficile à atteindre avec du traitement du signal classique. Par exemple, un filtrage par bande ne peut pas filtrer les bruits dont les fréquences chevauchent la voix. À l'inverse, un algorithme de Deep Learning peut reconstruire le signal et ainsi filtrer les bruits, peu importe leur fréquence.
- Il est possible d'entrainer des réseaux de neurones pour différentes tâches. On peut imaginer filtrer les bruits ambiants et isoler les voix dans un contexte de réunion ou isoler la musique et supprimer les voix dans un contexte de concert.
Ce prototype utilise le code de l'article Real Time Speech Enhancement in the Waveform Domain (Interspeech 2020) et le rends deployable sur un Jetson Nano. Couplé à une interface audio disposant de micros cela permet d'amplifier les voix et de les retransmettre dans un casque audio.
Les deux principaux challenges restants sont:
- La latence. 73.3ms sont actuellement nécessaires pour traiter le signal. Le son des interlocuteurs est donc un peu trop décalé pour qu'il soit synchronisé avec les lèvres. Cela rends l'association des mouvement de la bouche aux sons difficile. S'entendre en double avec cette latence rend également l'expression orale compliquée. Heureusement, il semble possible d'optimiser le modèle (cf. TensorRT).
- Transmettre le son à l'utilisateur. Utiliser un casque audio par dessus un appareil auditif est dangereux (risque de larsen) et il semble difficile de se procurer du hardware de prothèse auditives. Une piste pourrait être de reverse engineer une aide auditive pour comprendre comment utiliser ses micros et son haut-parleur? Ou utiliser une prothèse auditive disposant d'une connectivité bluetooth? Ou continuer d'utiliser un simple casque pour les malentendants non appareillés.
Cahier des charges
Analyse de l'existant
Plusieurs solutions d'aide auditive utilisant du Machine Learning existent dans le commerce mais, à notre connaissance, il n'en existe qu'une seule permettant un traitement poussé du son et une très bonne expérience d'écoute.
Cette solution, développée par la startup Whisper AI, n'est disponible que sur le marché nord américain et fonctionne de la manière suivante. L'aide auditive embarque le même genre de technologies que ses concurrents, permettant un traitement basique du son, mais elle est accompagnée d'un boîtier appelé "Whisper Brain" équipé de matériel plus performant et utilisé pour traiter le son avec des algorithmes plus gourmands en ressources.
Le boîtier tient dans une poche et permet également de contrôler le volume, ainsi que de choisir l'environnement sonore manuellement entre "musique", "extérieur", "télévision", "bruit" et "silence", afin d'optimiser les paramètres des algorithmes pour l'environnement dans lequel se trouve le porteur.
Pour plus d'informations, vous pouvez visiter le site de Whisper AI.
Equipe (Porteur de projet et contributeurs)
- Porteurs du projet : Armand du Parc Locmaria
- Concepteurs/contributeurs : Jean Dunston, Pierre Herduin, Adrien Loizeau, Paul Marquereau
- Animateur (coordinateur du projet) : ECE Paris
- Fabmanager référent :
- Responsable de documentation : Armand du Parc Locmaria
Matériel nécessaire
- 1x Nvidia Jetson Nano Developper Kit (4GB) - 144€
- 1x Interface Audio (nous utilisons un Zoom H4N mais n'importe quel micro/casque compatible Linux devrait fonctionner) - 10-200€
- 1x Batterie Portable (5V >2A) - 10-20€
- 1x Casque Audio - 10-100€
- 1x USB A vers barrel jack 2.1mm - 10€
- 1x Dongle Wifi - 10€
Outils nécessaires
Aucuns
Coût
194-484€
Fichiers source
https://github.com/Armandpl/jetson_denoiser
Etapes de fabrication pas à pas
Voir fichier Readme sur Github.