Meta, MIT und andere testen Roboterarm in optischer KI-Infrastruktur

Blog

HeimHeim / Blog / Meta, MIT und andere testen Roboterarm in optischer KI-Infrastruktur

Jul 14, 2023

Meta, MIT und andere testen Roboterarm in optischer KI-Infrastruktur

Von Agam Shah, 19. April 2023 Forscher von Meta, MIT und anderen Institutionen haben Server mit einem Dutzend Nvidia-GPUs über optische Schalter und einen Roboterarm verbunden und so eine neue Verbindung entwickelt, die das kann

Von Agam Shah

19. April 2023

Forscher von Meta, MIT und anderen Institutionen verbanden Server mit einem Dutzend Nvidia-GPUs über optische Schalter und einen Roboterarm und entwickelten so eine neue Verbindung, die für maschinelles Lernen genutzt werden könnte. Die Fabric mit dem Namen „TopoOpt“ kann je nach Rechenbedarf im Handumdrehen Netzwerktopologien erstellen. Die Technologie kommt zu einer Zeit, in der Hochleistungscomputer durch die zunehmende Einführung von KI-Technologien wie ChatGPT belastet werden, was die Grenzen des KI-Supercomputings von Microsoft auf die Probe stellt.

Auf dem USENIX Symposium on Networked Systems Design and Implementation, das diese Woche stattfindet, wurde ein Papier zu dieser Technologie vorgestellt.

TopoOpt verwendet Algorithmen, um die schnellsten parallelen Rechentechniken zu finden, basierend auf Informationen wie Verarbeitungsanforderungen, verfügbaren Rechenressourcen, Datenroutingtechniken und Netzwerktopologie. Die Forscher verbesserten außerdem die AllReduce-Funktion von Nvidia, die die Kommunikationszeit zwischen GPUs und anderen Komponenten minimiert.

„TopoOpt erstellt mithilfe rekonfigurierbarer optischer Schalter und Patchpanels dedizierte Partitionen für jeden Trainingsjob und optimiert gemeinsam die Topologie und Parallelisierungsstrategie innerhalb jeder Partition“, schreiben die Forscher.

Die Forscher testeten TopoOpt innerhalb der Meta-Infrastruktur mit einem Dutzend Asus ESC4000A-E10-Servern, die jeweils mit einer A100-GPU, HPE-NICs und einer 100-Gbit/s-Mellanox-ConnectX5-NIC ausgestattet waren. Die NICs verfügten über optische Transceiver mit Breakout-Fasern.

„TopoOpt ist das erste System, das Topologie und Parallelisierungsstrategie für ML-Workloads gemeinsam optimiert und wird derzeit für den Einsatz bei Meta evaluiert“, sagten die Forscher.

Das Setup verwendet auch ein Patchpanel von Telescent, das ein Netzwerk neu konfiguriert, indem es „einen Roboterarm verwendet, der eine Faser auf der Sendeseite greift und sie mit einer Faser auf der Empfangsseite verbindet“, heißt es in dem Papier. Der softwaregesteuerte Roboterarm bewegt sich auf und ab, um die Sendefaser mit einer Empfängerfaser an einer beliebigen Stelle im System zu verbinden. Dies bietet die erforderliche Flexibilität und Elastizität, um ein Netzwerk schnell neu zu konfigurieren. Patchpanels sind in kommerziellen Anwendungen bereits weit verbreitet, werden aber nun auch für den Einsatz in Rechenzentren vorgeschlagen.

Google hat kürzlich ein Papier vorgelegt, in dem detailliert beschrieben wird, wie das Unternehmen mithilfe eines KI-Supercomputers mit optischen Schaltkreisschaltern die Trainingsgeschwindigkeit auf seinen TPU-v4-Chips verbessert und gleichzeitig den Stromverbrauch niedrig hält. Das Optical Circuit Switching (OCS) in Googles Aufbau ist nicht so mobil wie ein Roboterarm, sondern nutzt Spiegel, um zwischen Eingangs- und Ausgangsfasern umzuschalten. Das Google-Setup war auch eine größere Testumgebung mit einer maßstabsgetreuen Bereitstellung auf 4.096 TPUs.

Die Forscher entschieden sich für das Patchpanel, da sie fanden, dass die optischen Schalter im Google-Stil „fünfmal teurer“ seien und sie auch weniger Ports unterstützten. Gleichzeitig sagten die Forscher, dass die OCS-Technologie, wie sie bei Google verwendet wird, für den Einsatz in großem Maßstab gedacht sei. „Der Hauptvorteil von OCSs besteht darin, dass ihre Rekonfigurationslatenz vier Größenordnungen schneller ist als bei Patchpanels“, schreiben die Forscher.

TopoOpt stellt die Rechen- und Netzwerkanforderungen vorab bereit und ist einsatzbereit, sobald die Server bereit sind und die Aufgabe bereitgestellt werden kann. „Wir kennen bereits die Reihenfolge der Jobeingänge und die Anzahl der für jeden Job erforderlichen Server“, schrieben die Forscher und fügten hinzu: „Dieses Design ermöglicht es jedem Server, an zwei unabhängigen Topologien teilzunehmen.“

Die Forscher kamen zu dem Schluss, dass TopoOpt eine 3,4-mal schnellere Trainingsiterationszeit bietet als eine andere Technik namens „Fat-Tree“, bei der das Netzwerk-Backbone das Herzstück der Infrastruktur ist, die dann Daten an mehrere Schichten statischer Switches weiterleitet, die das Kern-Netzwerk-Backend verbinden Hardware bis hin zu Front-End-Servern. Diese Technik ist heute weit verbreitet.

Der Einsatz optischer Netzwerke in einem Rechenzentrum ist ein neues Konzept, und Forscher führen den Roboterarm und ein neues Kommunikationsprotokoll als kostengünstigere Möglichkeit zum Aufbau einer KI-Netzwerkinfrastruktur ein. Die Machbarkeit der Technologie wird von Meta getestet.