Wie der HomePod maschinelles Lernen nutzt, um die Siri-Genauigkeit im Fernfeld zu erhöhen

In einem neuen Beitrag, der am Montag im Blog des Machine Learning Journal veröffentlicht wurde, erläutert Apple, wie der HomePod, sein drahtloser Smart-Lautsprecher, maschinelles Lernen einsetzt, um die Genauigkeit im Fernfeld zu erhöhen. Auf diese Weise kann Siri Hintergrundgeräusche ignorieren oder unterdrücken, um Ihre Sprache besser zu verstehen Anforderungen in lauten Umgebungen.

Aus dem Artikel:

Die typische Audioumgebung für den HomePod bietet viele Herausforderungen: Echo, Nachhall und Rauschen. Im Gegensatz zu Siri auf dem iPhone, das sich in der Nähe des Mundes des Benutzers befindet, muss Siri auf dem HomePod in einer Fernfeldumgebung gut funktionieren. Benutzer möchten Siri von vielen Standorten aus aufrufen, z. B. von der Couch oder der Küche aus, unabhängig davon, wo der HomePod installiert ist.

Ein vollständiges Online-System, das alle Umweltprobleme des HomePod berücksichtigt, erfordert eine enge Integration verschiedener Mehrkanalsignalverarbeitungstechnologien. Dementsprechend haben die Teams Audio Software Engineering und Siri Speech ein System aufgebaut, das sowohl überwachte Deep-Learning-Modelle als auch nicht überwachte Online-Lernalgorithmen integriert und mehrere Mikrofonsignale nutzt.

Das System wählt den optimalen Audiostream für den Spracherkenner aus, indem es das Top-Down-Wissen der 'Hey Siri'-Triggerphrasen-Detektoren verwendet.

Der Rest des Artikels beschreibt die Verwendung der verschiedenen Techniken des maschinellen Lernens für die Online-Signalverarbeitung sowie die Herausforderungen, mit denen Apple konfrontiert ist, und deren Lösungen, um die Robustheit von Umgebungen und Algorithmen bei gleichzeitiger Gewährleistung der Energieeffizienz zu erreichen.

Kurz gesagt, Siri auf dem HomePod implementiert den MCEC-Algorithmus (Multichannel Echo Cancellation), der mithilfe eines Satzes linearer adaptiver Filter die verschiedenen akustischen Pfade zwischen den Lautsprechern und den Mikrofonen modelliert, um die akustische Kopplung aufzuheben.

Aufgrund der Nähe der Lautsprecher zu den Mikrofonen auf dem HomePod kann das Wiedergabesignal an den Mikrofonpositionen erheblich lauter sein als die Sprachbefehle eines Benutzers, insbesondere wenn sich der Benutzer vom Gerät entfernt. Tatsächlich können die Echosignale 30 bis 40 dB lauter sein als die Sprachsignale im Fernfeld, was dazu führt, dass die Triggerphrase bei der lauten Musikwiedergabe auf den Mikrofonen nicht erkannt werden kann.

TLDR: MCEC allein kann das Wiedergabesignal nicht vollständig aus Ihrem Sprachbefehl entfernen.


Siri-Befehl bei lauter Musikwiedergabe aufgezeichnet: Mikrofonsignal (oben), Ausgabe von MCEC (Mitte) und Signal, das durch die maskenbasierte Echounterdrückung von Apple verbessert wurde (unten)

Um den verbleibenden Wiedergabeinhalt nach dem MCEC zu entfernen, verwendet der HomePod mithilfe des gut ausgebildeten maschinellen Lernmodells von Apple einen RES-Ansatz (Residual Echo Suppressor). Für eine erfolgreiche Erkennung von Triggerphrasen verringert der RES beispielsweise das verbleibende lineare Echo, insbesondere bei Doppelsprech- und Echopfadänderungen.

Lesen Sie unbedingt den vollständigen Beitrag und scrollen Sie nach unten zu Abschnitt 7, wo Sie Bilder mit mehreren farbigen Wellenformen sowie Links darunter haben, mit denen Sie selbst feststellen können, wie stark die Anforderungen eines Benutzers durch Musik unterdrückt werden, die mit hoher Lautstärke abgespielt wird Wiedergabesignal, das von den Hochtönern und dem Woofer des HomePod erzeugt wird.

Leckerbissen: Apples Mehrkanalsignalverarbeitung läuft auf einem Kern des 1,4-GHz-Dual-Core-A8-Siliziums und verbraucht bis zu 15 Prozent der Single-Core-Leistung des Chips.

Der HomePod nutzt maschinelles Lernen für viele Dinge, nicht nur für Siri.

Algorithmen zur Inhaltsempfehlung, die auf dem Gerät ausgeführt werden, profitieren vom maschinellen Lernen, ebenso wie die Techniken zur digitalen Audioverarbeitung und Klangoptimierung von HomePod.