Ein hochinteressanter technischer Artikel, der am 1. Oktober im Blog des Apple Machine Learning Journal veröffentlicht wurde, ist bis heute unbemerkt geblieben.
Apple legt detailliert dar, wie die unverbundene „Hey Siri“ -Funktion die Hardware, Software und die Leistung von iCloud nutzt, damit Kunden ihren Assistenten freihändig verwenden können.
Das System verbindet cloudbasierte Spracherkennung, Interpretation natürlicher Sprache und andere Dienste mit der hardwaregestützten Verarbeitung auf dem Gerät. Auf einem iOS-Gerät wird ständig ein „sehr kleiner Spracherkenner“ ausgeführt, der nur auf die Phrase „Hey Siri“ wartet.
Das Mikrofon Ihres iPhones oder Ihrer Apple Watch zeichnet 16.000 Streams von Samples mit sofortiger Wellenform pro Sekunde auf. Die folgenden Gründe belasten Ihren iPhone-Akku nicht sehr und beanspruchen auch keine anderen Systemressourcen wie RAM und CPU:
Um den Hauptprozessor nicht den ganzen Tag laufen zu lassen, um nur auf die Triggerphrase zu warten, hat der ständig eingeschaltete Coprozessor des iPhones (AOP, ein stromsparender Hilfsprozessor, der in den Bewegungscoprozessor der M-Serie von Apple integriert ist) Zugriff auf das Mikrofonsignal Ihres iPhones iPhone 6s und höher.
Wir verwenden einen kleinen Teil der begrenzten Rechenleistung des AOP, um einen Detektor mit einer kleinen Version des neuronalen Netzwerks zu betreiben. Wenn die Punktzahl einen Schwellenwert überschreitet, weckt der Bewegungscoprozessor den Hauptprozessor, der das Signal unter Verwendung eines größeren neuronalen Netzwerks analysiert.
Aufgrund des viel kleineren Akkus wird der „Hey Siri“ -Melder in der Apple Watch nur dann ausgeführt, wenn der Bewegungscoprozessor eine Handgelenk-Hebe-Geste erkennt, die den Bildschirm einschaltet. Aus diesem Grund können Sie „Hey Siri“ in der Apple Watch nicht verwenden, wenn der Bildschirm ausgeschaltet ist.
WatchOS weist "Hey Siri" ungefähr fünf Prozent des begrenzten Rechenbudgets zu.
Woran erkennen sie die aktuelle "Hey Siri" -Hot-Phrase in Echtzeit??
Sobald die Wellenform von Ihrem Gerät erfasst wurde, wird sie in eine Folge von Frames unterteilt, die jeweils das Klangspektrum von ca. 0,01 Sekunden beschreiben. Ungefähr zwanzig dieser Frames gleichzeitig (0,2 Sek. Audio) werden an das tiefe neuronale Netzwerk weitergeleitet.
Dort wird der Ton in eine Wahrscheinlichkeitsverteilung über eine Reihe von Sprachklangklassen umgewandelt: die in der „Hey Siri“ -Phrase verwendeten sowie Stille und andere Sprache für insgesamt etwa 20 Klangklassen. Es wird dann ein Vertrauensfaktor berechnet, der besagt, dass Sie "Hey Siri" ausgesprochen haben..
Wenn die Punktzahl hoch genug ist, wacht Siri auf.
Auf dem iPhone verwenden sie ein neuronales Netzwerk zur anfänglichen Erkennung (auf dem Power-Sipping-Motion-Chip ausgeführt) und ein anderes als sekundären Checker (auf dem Hauptprozessor ausgeführt). Um falsche Auslöser zu vermeiden, vergleicht Apple außerdem alle neuen "Hey Siri" -Aussagen mit den fünf Phrasen, die während des Registrierungsprozesses "Hey Siri" auf dem Gerät gespeichert wurden.
"Dieser Prozess verringert nicht nur die Wahrscheinlichkeit, dass 'Hey Siri' von einer anderen Person gesprochen wird, sondern verringert auch die Rate, mit der andere, ähnlich klingende Phrasen Siri auslösen", erklärt das Forschungspapier.
Das Gerät lädt auch die Wellenform auf den Siri-Server hoch.
Sollte der Haupt-Spracherkenner, der in der Cloud ausgeführt wird, etwas anderes als "Hey Siri" hören (z. B. "Hey Seriously", "Hey Syria" oder ähnliches), sendet der Server ein Abbruchsignal an das Telefon, um es zurückzusenden Schlaf.
"Auf einigen Systemen wird eine abgespeckte Version der Hauptspracherkennung auf dem Gerät ausgeführt, um eine frühere zusätzliche Überprüfung zu ermöglichen", stellt Apple fest. Ich gehe davon aus, dass mit „einigen Systemen“ Geräte gemeint sind, die an die Stromversorgung angeschlossen sind, wie Macs, Apple TVs und vielleicht sogar iPads.
Oben abgebildet: Das akustische Muster, wie es sich durch den „Hey Siri“ -Detektor bewegt, mit einem Spektrogramm der Wellenform vom Mikrofon ganz unten. Das oben angezeigte Endergebnis wird mit einem Schwellenwert verglichen, um zu entscheiden, ob Siri aktiviert werden soll.
Der Schwellenwert selbst ist ein dynamischer Wert, da Apple die Benutzer Siri unter schwierigen Bedingungen aktivieren lassen möchte. Wenn ein echtes "Hey Siri" -Ereignis verpasst wird, wechselt das System für einige Sekunden in einen empfindlicheren Zustand. Das Wiederholen der Phrase während dieser Zeit löst Siri aus.
Und so haben sie das akustische Modell des „Hey Siri“ -Detektors trainiert:
Lange bevor es eine Hey Siri-Funktion gab, sagte ein kleiner Teil der Benutzer zu Beginn einer Anfrage 'Hey Siri', nachdem sie den Knopf gedrückt hatten. Wir haben solche 'Hey Siri'-Äußerungen für das erste Trainingsset für das US-englische Detektormodell verwendet.
Wir haben auch allgemeine Sprachbeispiele beigefügt, die zum Trainieren des Hauptspracherkenners verwendet werden. In beiden Fällen verwendeten wir die automatische Transkription für die Trainingssätze. Die Siri-Teammitglieder überprüften eine Teilmenge der Transkriptionen auf Richtigkeit.
Das akustische Modell in US-Englisch berücksichtigt sogar verschiedene erste Vokale in "Siri", einen als "ernst" und den anderen als "Syrien".
Das Training eines Modells dauert ungefähr einen Tag und es befinden sich in der Regel einige wenige Modelle gleichzeitig im Training. Sie trainieren im Allgemeinen drei Versionen: ein kleines Modell für den ersten Durchgang auf dem Bewegungschip, ein größeres Modell für den zweiten Durchgang und ein mittelgroßes Modell für die Apple Watch.
Und der letzte Leckerbissen: Das System ist darauf trainiert, auch lokalisierte „Hey Siri“ -Phrasen zu erkennen.
Zum Beispiel sagen französischsprachige Benutzer "Dis Siri". In Korea sagen sie "Siri 야", was wie "Siri Ya" klingt. Russischsprachige Benutzer verwenden die Phrase „привет Siri“ (klingt wie „Liguster Siri“) und auf Thailändisch „หวัด หวัด Siri“ (klingt wie „Wadi Siri“)..
„Wir haben Aufnahmen von Muttersprachlern jeder Sprache unter verschiedenen Bedingungen gemacht, z. B. in der Küche (nah und fern), im Auto, im Schlafzimmer und im Restaurant“, sagt Apple.
Sie verwenden sogar Podcasts und Siri-Eingaben in vielen Sprachen, um sowohl Hintergrundgeräusche (insbesondere Sprache) als auch die "Arten von Phrasen, die ein Benutzer einer anderen Person sagen könnte" darzustellen.
„Wenn Sie das nächste Mal‚ Hey Siri 'sagen, denken Sie vielleicht an alles, was dazu führt, dass auf diesen Satz reagiert wird, aber wir hoffen, dass es ‚einfach funktioniert'“, fasst Apple es gut zusammen.
Der hochtechnische Artikel bietet einen faszinierenden Einblick in die „Hey Siri“ -Technologie, die wir für selbstverständlich halten. Sie sollten ihn also unbedingt lesen oder für einen späteren Zeitpunkt aufbewahren, wenn Sie mehr erfahren möchten.