Apple hat am Mittwoch drei neue Artikel veröffentlicht, in denen die vertieften Lerntechniken für die Erstellung der neuen synthetischen Stimmen von Siri beschrieben werden. Die Artikel behandeln auch andere Themen des maschinellen Lernens, die im Laufe dieser Woche auf der Konferenz Interspeech 2017 in Stockholm, Schweden, vorgestellt werden.
Die folgenden neuen Artikel des Siri-Teams sind jetzt verfügbar:
- Deep Learning für Siri's Voice-Details zur Verwendung von Deep-Mixed-Density-Netzwerken auf dem Gerät für die Synthese hybrider Einheitenauswahl
- Inverse Text Normalization-Ansatz aus Sicht der Beschriftung
- Verbessern der Akustikmodelle für neuronale Netze - Nutzen Sie die bandbreiten- und sprachübergreifende Initialisierung, wenn Sie wissen, was ich meine
Wenn Sie Schwierigkeiten haben, die technischen Details zu verstehen oder die hochtechnische Natur der Sprache, die in den letzten Aufzeichnungen verwendet wurde, zu verstehen, sind Sie nicht allein.
Ich habe kein Problem damit, mich eingehend mit Apples komplexer Dokumentation für Entwickler und anderen speziellen Dokumentationen zu befassen, aber ich finde es geradezu dumm, nur diese detaillierten Erklärungen zu lesen.
Unter anderem bietet iOS 11 mehr Intelligenz und eine neue Stimme für Siri.
Der persönliche Assistent von Apple verwendet keine Phrasen und Wörter mehr, die von Sprachdarstellern aufgezeichnet wurden, um Sätze und deren Antworten zu konstruieren. Stattdessen verwendet Siri auf iOS 11 (und anderen Plattformen) programmgesteuert erstellte männliche und weibliche Stimmen. Das ist eine viel schwierigere Sprachsynthesetechnik, bietet aber einige wirklich coole kreative Möglichkeiten.
Zum Beispiel nutzen die neuen Siri-Stimmen das maschinelle Lernen am Gerät und die künstliche Intelligenz, um Intonation, Tonhöhe, Betonung und Tempo anzupassen, während sie in Echtzeit sprechen und dabei den Kontext des Gesprächs berücksichtigen. Der Artikel von Apple mit dem Titel „Deep Learning für Siri's Voice“ beschreibt die verschiedenen Deep Learning-Techniken, die hinter den Siri Voice-Verbesserungen von iOS 11 stehen.
Nach dem einleitenden Absatz:
Siri ist eine persönliche Assistentin, die mittels Sprachsynthese kommuniziert. Ab iOS 10 und mit den neuen Funktionen in iOS 11 bauen wir Siri-Stimmen auf fundiertem Lernen auf. Die resultierenden Stimmen sind natürlicher, weicher und lassen Siris Persönlichkeit durchscheinen.
Die neuen Artikel wurden im offiziellen Blog des Apple Machine Learning Journal veröffentlicht, der vor einigen Wochen gegründet wurde, um die Bemühungen des Unternehmens auf dem Gebiet des maschinellen Lernens, der künstlichen Intelligenz und der damit verbundenen Forschung zu dokumentieren.
Apple fuhr mit dem Blog fort und kritisierte, dass es nicht die klügsten Köpfe für künstliche Intelligenz und maschinelles Lernen einstellen könne, weil sie ihre Werke nicht veröffentlichen könnten.
Der Eröffnungsbeitrag mit dem Titel „Verbesserung des Realismus synthetischer Bilder“ wurde im Juli veröffentlicht. Der ausführliche Artikel beschreibt eine neue Methode zur Verbesserung des Realismus von synthetischen Bildern aus einem Simulator unter Verwendung von unbeschrifteten Realdaten unter Beibehaltung der Anmerkungsinformationen.