Werden Pixel-Bytes auf dem CPU im Hot Path je kopiert?

Nein, absichtlich nicht. Kamera, GPU und NPU tauschen denselben Shared-Memory-Frame per Handle-Passing aus — kein Buffer-Kopieren in keinem Schritt.

Welche Modell-Formate akzeptiert die KI-Laufzeit?

TFLite direkt. ONNX wird in der Pipeline automatisch konvertiert, sodass Teams mit ONNX-Export-Pfaden beide Formate liefern können.

Kann ich mehrere Modelle gleichzeitig ausführen?

Ja. Die KI-Laufzeit lädt mehrere Modelle gleichzeitig. Same-Model-Re-Entry wird konstruktionsbedingt verhindert. Der Serialisierungsmodus (pro Modell oder globale Einzelspur) ist ohne Neukompilierung konfigurierbar.

Kann ich ohne NPU-Hardware entwickeln?

Ja. Provider-veröffentlichte Fakes (KI-Laufzeit, GPU-ROI-Shader, Frame-Quelle/-Senke, Datei-Wiedergabe) ermöglichen die Entwicklung und den Integrationstest der gesamten Pipeline ohne NPU-Hardware, Kamera-Sensor oder Bazel.

Wie funktioniert die Zero-Copy-Übergabe technisch?

Kamera-Frames überqueren die Prozessgrenze per Handle-Passing. Der GPU-ROI-Shader importiert sie und führt Crop-, Resize- und Normalize-Compute-Shader vollständig auf der GPU aus. Das Ausgabe-Tensor-Handle wird an die KI-Laufzeit übergeben, die den Silicon-Vendor-NPU-Delegate antreibt.

Ist GPU-zu-NPU-Shared-Memory auf der MIPI-CSI-AI-class-Variante verfügbar?

Nein. GPU-zu-NPU-Shared-Memory ist nur auf der Serializer-Bridge-AI-class-Variante verfügbar. Die MIPI-CSI-Variante verwendet GPU-ROI-Extraktion und übergibt den Tensor als Standard-Buffer an den NPU. Beide Varianten teilen dieselbe Vulkan-ROI-Pipeline.

Werden Pixel-Bytes auf dem CPU im Hot Path je kopiert?

Nein, absichtlich nicht. Kamera, GPU und NPU tauschen denselben Shared-Memory-Frame per Handle-Passing aus — kein Buffer-Kopieren in keinem Schritt.

Welche Modell-Formate akzeptiert die KI-Laufzeit?

TFLite direkt. ONNX wird in der Pipeline automatisch konvertiert, sodass Teams mit ONNX-Export-Pfaden beide Formate liefern können.

Kann ich mehrere Modelle gleichzeitig ausführen?

Ja. Die KI-Laufzeit lädt mehrere Modelle gleichzeitig. Same-Model-Re-Entry wird konstruktionsbedingt verhindert. Der Serialisierungsmodus (pro Modell oder globale Einzelspur) ist ohne Neukompilierung konfigurierbar.

Kann ich ohne NPU-Hardware entwickeln?

Ja. Provider-veröffentlichte Fakes (KI-Laufzeit, GPU-ROI-Shader, Frame-Quelle/-Senke, Datei-Wiedergabe) ermöglichen die Entwicklung und den Integrationstest der gesamten Pipeline ohne NPU-Hardware, Kamera-Sensor oder Bazel.

Wie funktioniert die Zero-Copy-Übergabe technisch?

Kamera-Frames überqueren die Prozessgrenze per Handle-Passing. Der GPU-ROI-Shader importiert sie und führt Crop-, Resize- und Normalize-Compute-Shader vollständig auf der GPU aus. Das Ausgabe-Tensor-Handle wird an die KI-Laufzeit übergeben, die den Silicon-Vendor-NPU-Delegate antreibt.

Ist GPU-zu-NPU-Shared-Memory auf der MIPI-CSI-AI-class-Variante verfügbar?

Nein. GPU-zu-NPU-Shared-Memory ist nur auf der Serializer-Bridge-AI-class-Variante verfügbar. Die MIPI-CSI-Variante verwendet GPU-ROI-Extraktion und übergibt den Tensor als Standard-Buffer an den NPU. Beide Varianten teilen dieselbe Vulkan-ROI-Pipeline.

Plattform · AI Funnel

AI Funnel — Edge-KI-Flow in TOML beschreiben.

AI Funnel ist die deklarative Edge-KI-Engine von MOS4. Der Kunde liefert einen TOML-Graph plus ein Modell und einen Datensatz; Cloud Connect trainiert neu, optimiert, validiert gegen Referenz-Hardware und liefert das signierte Bundle per OTA aus. Die On-Device-Laufzeit liefert den DAG aus: Kamera → GPU → NPU ohne CPU-Pixel-Kopieren.

Mit dem Engineering-Team sprechen Deployment-Lifecycle ansehen

KI · Intelligenzschicht

~100 TOPS KI-class-Silizium bis zu ~100 TOPS auf der AI-class-Stufe

5 Kamera-Eingaben MIPI-CSI, GMSL2, UVC, RTSP, WebRTC

0 CPU-Pixel-Lesevorgänge gesamter Hot Path — Kamera bis NPU

Dreistufige AI-Funnel-Pipeline auf dunklem Hintergrund — Stufe 1 Kundenbereitstellung (TOML, ONNX/TFLite, Dataset), Stufe 2 Munic-Cloud (Re-Training, Quantisierung, Validierung), Stufe 3 On-Device-Runtime (ECU mit NPU und GPU im Shared Memory)

Deployment-Lifecycle

Vom TOML zum ersten markierten Frame.

Drei Phasen. Build läuft in Cloud Connect: Triage-Retraining, NPU-only-Optimierung, Hardware-in-the-loop-Validierung. Provision läuft auf dem Gerät, wenn das Bundle eintrifft: DAG ausgeliefert, Modelle geladen, GPU und NPU konfiguriert. Run wird pro Frame ausgeführt: Triage erkennt, ai-funnel leitet weiter, der Kunden-Container beendet den Flow.

1 — Build · Cloud Connect

Kunde liefert, Cloud Connect validiert.

Ein TOML-Graph, ein Modell, ein COCO-Datensatz. Cloud Connect — der verwaltete Cloud-Service, der die Flotte mit MOS4-micro services verbindet — trainiert den vereinheitlichten Triage-Detektor über die Kunden-Funnels neu. Er erzwingt NPU-only-Operationen, optimiert für Low-Precision-Inferenz auf dem Ziel-NPU und gattet auf Referenz-Hardware. Ausgabe ist ein signiertes Deployment-Bundle. Die Registry ist Munic-gehostet oder kunden-gehostet.

AI Funnel ist Teil der No-Code-Plattform. Cloud-Connect-Detail: mehr erfahren · loslegen.

flowchart LR
  CB["Kunden-Container<br/>funnel.toml + Modelle<br/>+ COCO-Datensatz + Container-Code"]
  REG[("Registry<br/>Munic-gehostet oder<br/>kunden-gehostet")]
  TT["Triage-Trainer<br/>mehrere Funnels → ein Triage"]
  OPT["NPU-Optimierer<br/>NPU-only-Ops · Low-Precision-Inferenz"]
  HIL["HW-in-the-loop-Validator<br/>Referenz-Zielhardware<br/>Genauigkeits- + Latenz-Gate"]
  BUNDLE["Signiertes Deployment-Bundle"]
  CB --> REG --> TT --> OPT --> HIL --> BUNDLE
  class TT,OPT,HIL ai-node

Build-Phase. KI-class-Schritte sind bernstein: der Triage-Trainer (mehrere Funnels zu einem Detektor zusammengeführt), der NPU-Optimierer (NPU-only-Ops, Low-Precision-Inferenz) und der Hardware-in-the-loop-Validator, der auf Genauigkeit und Latenz prüft.

Ein Bundle, das das Hardware-in-the-loop-Genauigkeits- oder Latenz-Gate nicht besteht, wird an den Kunden zurückgewiesen; nur signierte, geprüfte Bundles erreichen den OTA-Kanal.

↓ OTA · selber Kanal wie Code-Updates

2 — Provision · Gerät

DAG ausgeliefert. Pipeline bewaffnet.

Wenn das Bundle auf dem Gerät eintrifft, wird der aus funnel.toml kompilierte DAG ausgeliefert: Kamera- und Sensor-Routing konfiguriert, Modelle in den NPU geladen, der GPU-Shader für Tensor-Format, Letterboxing und ROI-Extraktion konfiguriert. Modell-Updates fahren über denselben OTA-Kanal wie Code, mit Flotten-Rollback, gestaffeltem Rollout und Version-Pinning.

flowchart LR
  PULL["Bundle gezogen<br/>selber OTA-Kanal wie Code"]
  DAG["DAG ausgeliefert<br/>aus funnel.toml kompiliert"]
  CFG_CAM["Kamera- / Sensor-<br/>Routing konfiguriert"]
  CFG_NPU["KI-Laufzeit<br/>Modelle in NPU geladen"]
  CFG_GPU["GPU-ROI-Shader<br/>Tensor-Format · Letterbox · ROI"]
  READY["Bereit · erstes Frame"]
  PULL --> DAG
  DAG --> CFG_CAM --> READY
  DAG --> CFG_NPU --> READY
  DAG --> CFG_GPU --> READY
  class CFG_NPU ai-node

Provision-Phase. Bundle-Pull und DAG-Dispatch sind System-Schritte; mos-ai-runtime, das das Modell in den NPU lädt, ist der KI-class-Schritt (bernstein).

↓ erstes Frame

3 — Run · Pro Frame

Triage leitet weiter; der DAG endet.

Jedes Frame durchläuft Kamera → GPU-Triage-Tensor → NPU-Triage. ai-funnel prüft die Labels und leitet pro Erkennung weiter: die GPU schneidet die ROI neu zu, der NPU führt das nachgelagerte Modell aus, das Ergebnis schleift entweder zurück zum Router für die nächste DAG-Stufe oder verlässt den DAG zum Kunden-Container — Tracking, Karte, Cloud-Nachricht, CAN — abhängig vom DAG-Endknoten.

flowchart LR
  SRC["Kamera / Sensor<br/>gemeinsamer GPU-Frame"]
  GPU1["GPU<br/>Triage-Tensor"]
  NPU1["NPU-Triage<br/>Labels + BBoxen"]
  AIF["AI-Funnel<br/>DAG-Router"]
  GPU2["GPU<br/>Pro-Erkennung ROI<br/>Letterbox · Normalisieren"]
  NPU2["NPU-Modell<br/>Labels + Konfidenz"]
  SINK["Kunden-Container<br/>Tracking · Karte · Cloud-Nachricht · CAN"]
  SRC --> GPU1 --> NPU1 --> AIF
  AIF --> GPU2 --> NPU2 --> AIF
  AIF --> SINK
  class NPU1,NPU2 ai-node

Run-Phase. NPU-Inferenz-Schritte sind bernstein. Die Router-zu-Modell-zurück-zum-Router-Kanten zeigen den DAG-Loopback; die letzte Kante zum Kunden-Container ist das DAG-Terminal.

Für die kameraseitige Eingabe-Matrix (MIPI-CSI, GMSL2, UVC, RTSP, WebRTC) siehe Vision-Fähigkeiten.

Observability

14 eingebaute Metriken über die Pipeline.

Jede Pipeline-Stufe gibt Prometheus-Metriken aus — Aufrufe, Fehler, Dauer-Histogramme, Watchdog-Heartbeat. 14 Metriken über GPU-ROI-Shader und KI-Laufzeit, kein Pro-Service-Autorenaufwand. Vollständigen Operations-Katalog ansehen →

Test-Doubles

Entwickeln ohne Hardware.

Provider-veröffentlichte Fakes für CI und Off-Target-Entwicklung
Fake-Component	Test-Umfang	CI-ausführbar
AI-Laufzeit-Fake	Model-Inferenz-Stub	Ja — kein NPU-Hardware
GPU-ROI-Shader-Fake	GPU-ROI-Extraktion-Stub	Ja — kein GPU erforderlich
Mock-Frame-Quelle/-Senke	Frame-Bus Pub/Sub	Ja — rein auf Host
Sim-Datei-Quelle	Kamera-Eingabe-Wiedergabe	Ja — dateibasiert

Gesamte Pipeline auf jedem Laptop aufbauen und validieren. SDK und Entwickler-Workflow ansehen →

FAQ

Häufig gestellte Fragen

Werden Pixel-Bytes auf dem CPU im Hot Path je kopiert?

Nein, absichtlich nicht. Kamera, GPU und NPU tauschen denselben Shared-Memory-Frame per Handle-Passing aus — kein Buffer-Kopieren in keinem Schritt.
Welche Modell-Formate akzeptiert die KI-Laufzeit?

TFLite direkt. ONNX wird in der Pipeline automatisch konvertiert, sodass Teams mit ONNX-Export-Pfaden beide Formate liefern können.
Kann ich mehrere Modelle gleichzeitig ausführen?

Ja. Die KI-Laufzeit lädt mehrere Modelle gleichzeitig. Same-Model-Re-Entry wird konstruktionsbedingt verhindert. Der Serialisierungsmodus (pro Modell oder globale Einzelspur) ist ohne Neukompilierung konfigurierbar.
Kann ich ohne NPU-Hardware entwickeln?

Ja. Provider-veröffentlichte Fakes (KI-Laufzeit, GPU-ROI-Shader, Frame-Quelle/-Senke, Datei-Wiedergabe) ermöglichen die Entwicklung und den Integrationstest der gesamten Pipeline ohne NPU-Hardware, Kamera-Sensor oder Bazel.

Architektur-FAQ

Implementierungsdetails

Wie funktioniert die Zero-Copy-Übergabe technisch?

Kamera-Frames überqueren die Prozessgrenze per Handle-Passing. Der GPU-ROI-Shader importiert sie und führt Crop-, Resize- und Normalize-Compute-Shader vollständig auf der GPU aus. Das Ausgabe-Tensor-Handle wird an die KI-Laufzeit übergeben, die den Silicon-Vendor-NPU-Delegate antreibt.
Ist GPU-zu-NPU-Shared-Memory auf der MIPI-CSI-AI-class-Variante verfügbar?

Nein. GPU-zu-NPU-Shared-Memory ist nur auf der Serializer-Bridge-AI-class-Variante verfügbar. Die MIPI-CSI-Variante verwendet GPU-ROI-Extraktion und übergibt den Tensor als Standard-Buffer an den NPU. Beide Varianten teilen dieselbe Vulkan-ROI-Pipeline.

Text-KI-Plattform

AI Language — die Text-Intelligenz-Begleitplattform.

AI Funnel ist die visuelle Build-Intelligence-Engine. Die Begleitplattform für Text ist AI Language — On-Device-LLM, refuse-preferred RAG, Vier-Schichten-Prompt-Injection-Abwehr und mehrsprachige Sprache, standardmäßig offline.

Beide Plattformen laufen auf demselben Gerät und teilen den MOS4-EventBus und OTA-Kanal. AI Funnel führt die visuelle Pipeline aus; AI Language führt die Sprachpipeline aus. Zusammen bilden sie die Runtime-Schicht der MOS4 AI Software Suite.

AI Language Plattform ansehen →

Weiter erkunden

Bringen Sie das Modell und den Datensatz mit.

Bringen Sie den Inferenz-Task; das Engineering-Team erläutert den Capture-to-NPU-Pfad auf einem Zielgerät.

Mit dem Engineering-Team sprechen Den micro service-Katalog durchsuchen

AI Funnel — Edge-KI-Flow in TOML beschreiben.

Vom TOML zum ersten markierten Frame.

Kunde liefert, Cloud Connect validiert.

DAG ausgeliefert. Pipeline bewaffnet.

Triage leitet weiter; der DAG endet.

14 eingebaute Metriken über die Pipeline.

Entwickeln ohne Hardware.

Häufig gestellte Fragen

Werden Pixel-Bytes auf dem CPU im Hot Path je kopiert?

Welche Modell-Formate akzeptiert die KI-Laufzeit?

Kann ich mehrere Modelle gleichzeitig ausführen?

Kann ich ohne NPU-Hardware entwickeln?

Implementierungsdetails

Wie funktioniert die Zero-Copy-Übergabe technisch?

Ist GPU-zu-NPU-Shared-Memory auf der MIPI-CSI-AI-class-Variante verfügbar?

AI Language — die Text-Intelligenz-Begleitplattform.

Verwandte Fähigkeiten

KI-class-Hardware

No-Code-Plattform

SDK und Entwickler-Tools

Bringen Sie das Modell und den Datensatz mit.

Bauen Sie auf MOS4?