PREMA: A Predictive Multi-Task Scheduling Algorithm For Preemptible Neural Processing Units

To amortize cost, cloud vendors providing DNN acceleration as a service to end-users employ consolidation and virtualization to share the underlying resources among multiple DNN service requests. This paper makes a case for a "preemptible" neural processing unit (NPU) and a "predictiv...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Veröffentlicht in:Proceedings - International Symposium on High-Performance Computer Architecture S. 220 - 233
Hauptverfasser: Choi, Yujeong, Rhu, Minsoo
Format: Tagungsbericht
Sprache:Englisch
Veröffentlicht: IEEE 01.02.2020
Schlagworte:
ISSN:2378-203X
Online-Zugang:Volltext
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!