Apple hat seine Selbstfahrforschung jahrelang geheim gehalten, aber jetzt hat das Unternehmen einige seiner autonomen Fahrsoftwaretechniken veröffentlicht, die die Erkennung von Hindernissen verbessern.
Der Artikel wurde am 17. November im moderierten wissenschaftlichen Pre-Print-Repository arXiv von Apples Experten für künstliche Intelligenz und maschinelles Lernen, Yin Zhou und Oncel Tuzel, veröffentlicht.
Anstatt sich auf handgefertigte Feature-Darstellungen (zum Beispiel eine Vogelperspektive) zu verlassen, schlagen die Wissenschaftler von Apple eine neuartige, durchgängig trainierbare Tiefenarchitektur für die punktwolkenbasierte 3D-Erkennung vor. Mit der Bezeichnung VoxelNet können spärliche 3D-Punkte direkt bearbeitet und 3D-Forminformationen effektiv erfasst werden.
Erste Versuche mit der VoxelNet-Technologie haben gezeigt, dass sie die neuesten LiDAR-basierten 3D-Erkennungsmethoden um ein Vielfaches übertrifft. Bei anspruchsvolleren Aufgaben wie der 3D-Erkennung von Fußgängern und Radfahrern zeigte der VoxelNet-Ansatz ermutigende Ergebnisse und zeigte, dass er eine bessere 3D-Darstellung und -Erfassung bietet.
Grüne 3D-Kästchen kennzeichnen potenzielle Hindernisse, die mit LiDAR erkannt wurden
Die Fähigkeit, Objekte in 3D-Punktwolken genau zu erkennen, ist entscheidend für die Vermeidung von Hindernissen.
Aus dem Papier:
VoxelNet unterteilt eine Punktwolke in gleichmäßig verteilte 3D-Voxel und wandelt eine Gruppe von Punkten in jedem Voxel durch die neu eingeführte VFE-Ebene (Voxel Feature Encoding) in eine einheitliche Merkmalsdarstellung um. Auf diese Weise wird die Punktwolke als beschreibende Volumendarstellung codiert, die dann mit einer RPN verbunden wird, um Detektionen zu generieren.
Experimente zum KITTI-Autoerkennungsbenchmark zeigen, dass VoxelNet die neuesten LiDAR-basierten 3D-Erkennungsmethoden deutlich übertrifft. Darüber hinaus lernt unser Netzwerk eine effektive diskriminative Darstellung von Objekten mit verschiedenen Geometrien, was zu ermutigenden Ergebnissen bei der 3D-Erkennung von Fußgängern und Radfahrern führt, die nur auf LiDAR basieren.
Die oben dargestellte VoxelNet-Architektur enthält ein Lernnetzwerk, das eine Rohpunktwolke als Eingabe verwendet, dann den Raum in Voxel aufteilt und Punkte in jedem Voxel in eine Vektordarstellung umwandelt, die die Forminformationen kennzeichnet.
Es ist großartig, dass sich Apple öffnet, wenn es um die autonome Fahrforschung geht, die sich angeblich an den Fahrmarkt und den firmeneigenen Campus-Shuttleservice richtet.
Der iPhone-Hersteller hat offenbar große Investitionen in das autonome Fahren getätigt und hat laut CEO Tim Cook ein großes Projekt in diesem Bereich in Angriff genommen.