Plattform · AI Funnel

AI Funnel — Edge-KI-Flow in TOML beschreiben.

AI Funnel ist die deklarative Edge-KI-Engine von MOS4. Der Kunde liefert einen TOML-Graph plus ein Modell und einen Datensatz; Cloud Connect trainiert neu, optimiert, validiert gegen Referenz-Hardware und liefert das signierte Bundle per OTA aus. Die On-Device-Laufzeit liefert den DAG aus: Kamera → GPU → NPU ohne CPU-Pixel-Kopieren.

KI · Intelligenzschicht
~100 TOPS KI-class-Silizium bis zu ~100 TOPS auf der AI-class-Stufe
5 Kamera-Eingaben MIPI-CSI, GMSL2, UVC, RTSP, WebRTC
0 CPU-Pixel-Lesevorgänge gesamter Hot Path — Kamera bis NPU
Dreistufige AI-Funnel-Pipeline auf dunklem Hintergrund — Stufe 1 Kundenbereitstellung (TOML, ONNX/TFLite, Dataset), Stufe 2 Munic-Cloud (Re-Training, Quantisierung, Validierung), Stufe 3 On-Device-Runtime (ECU mit NPU und GPU im Shared Memory)

Deployment-Lifecycle

Vom TOML zum ersten markierten Frame.

Drei Phasen. Build läuft in Cloud Connect: Triage-Retraining, NPU-only-Optimierung, Hardware-in-the-loop-Validierung. Provision läuft auf dem Gerät, wenn das Bundle eintrifft: DAG ausgeliefert, Modelle geladen, GPU und NPU konfiguriert. Run wird pro Frame ausgeführt: Triage erkennt, ai-funnel leitet weiter, der Kunden-Container beendet den Flow.

1 — Build · Cloud Connect

Kunde liefert, Cloud Connect validiert.

Ein TOML-Graph, ein Modell, ein COCO-Datensatz. Cloud Connect — der verwaltete Cloud-Service, der die Flotte mit MOS4-micro services verbindet — trainiert den vereinheitlichten Triage-Detektor über die Kunden-Funnels neu. Er erzwingt NPU-only-Operationen, optimiert für Low-Precision-Inferenz auf dem Ziel-NPU und gattet auf Referenz-Hardware. Ausgabe ist ein signiertes Deployment-Bundle. Die Registry ist Munic-gehostet oder kunden-gehostet.

AI Funnel ist Teil der No-Code-Plattform. Cloud-Connect-Detail: mehr erfahren · loslegen.

Build-Phase des AI-Funnel-Deployment-Lifecycles in Cloud Connect. Der Kunden-Container — funnel.toml, Modelle, COCO-Datensatz und Container-Code — wird in eine Registry gepusht, die entweder Munic-gehostet oder kunden-gehostet ist. Von der Registry fließen die Artefakte in den Triage-Trainer, der mehrere Kunden-Funnels zu einem vereinheitlichten Triage-Detektor zusammenführt. Das Ergebnis wird vom NPU-Optimierer verarbeitet, der NPU-only-Operationen und Low-Precision-Inferenz erzwingt. Das optimierte Modell wird vom Hardware-in-the-loop-Validator geprüft, der den Kandidaten auf Referenz-Zielhardware testet und auf Genauigkeit und Latenz prüft. Ein bestandenes Bundle wird signiert und als Deployment-Bundle ausgegeben.

flowchart LR
  CB["Kunden-Container<br/>funnel.toml + Modelle<br/>+ COCO-Datensatz + Container-Code"]
  REG[("Registry<br/>Munic-gehostet oder<br/>kunden-gehostet")]
  TT["Triage-Trainer<br/>mehrere Funnels → ein Triage"]
  OPT["NPU-Optimierer<br/>NPU-only-Ops · Low-Precision-Inferenz"]
  HIL["HW-in-the-loop-Validator<br/>Referenz-Zielhardware<br/>Genauigkeits- + Latenz-Gate"]
  BUNDLE["Signiertes Deployment-Bundle"]
  CB --> REG --> TT --> OPT --> HIL --> BUNDLE
  class TT,OPT,HIL ai-node
Build-Phase. KI-class-Schritte sind bernstein: der Triage-Trainer (mehrere Funnels zu einem Detektor zusammengeführt), der NPU-Optimierer (NPU-only-Ops, Low-Precision-Inferenz) und der Hardware-in-the-loop-Validator, der auf Genauigkeit und Latenz prüft.

Ein Bundle, das das Hardware-in-the-loop-Genauigkeits- oder Latenz-Gate nicht besteht, wird an den Kunden zurückgewiesen; nur signierte, geprüfte Bundles erreichen den OTA-Kanal.

2 — Provision · Gerät

DAG ausgeliefert. Pipeline bewaffnet.

Wenn das Bundle auf dem Gerät eintrifft, wird der aus funnel.toml kompilierte DAG ausgeliefert: Kamera- und Sensor-Routing konfiguriert, Modelle in den NPU geladen, der GPU-Shader für Tensor-Format, Letterboxing und ROI-Extraktion konfiguriert. Modell-Updates fahren über denselben OTA-Kanal wie Code, mit Flotten-Rollback, gestaffeltem Rollout und Version-Pinning.

Provision-Phase des AI-Funnel-Deployment-Lifecycles auf dem Gerät. Das signierte Bundle wird über denselben OTA-Kanal wie Code-Updates gezogen. Der aus funnel.toml kompilierte DAG wird ausgeliefert und drei Konfigurationen fächern parallel auf: Kamera- und Sensor-Routing, die KI-Laufzeit, die die Modelle in den NPU lädt, und der GPU-ROI-Shader, der Tensor-Format, Letterboxing und ROI-Extraktion konfiguriert. Alle drei konvergieren beim Bereit-Signal — das Gerät ist für das erste Frame gerüstet.

flowchart LR
  PULL["Bundle gezogen<br/>selber OTA-Kanal wie Code"]
  DAG["DAG ausgeliefert<br/>aus funnel.toml kompiliert"]
  CFG_CAM["Kamera- / Sensor-<br/>Routing konfiguriert"]
  CFG_NPU["KI-Laufzeit<br/>Modelle in NPU geladen"]
  CFG_GPU["GPU-ROI-Shader<br/>Tensor-Format · Letterbox · ROI"]
  READY["Bereit · erstes Frame"]
  PULL --> DAG
  DAG --> CFG_CAM --> READY
  DAG --> CFG_NPU --> READY
  DAG --> CFG_GPU --> READY
  class CFG_NPU ai-node
Provision-Phase. Bundle-Pull und DAG-Dispatch sind System-Schritte; mos-ai-runtime, das das Modell in den NPU lädt, ist der KI-class-Schritt (bernstein).

3 — Run · Pro Frame

Triage leitet weiter; der DAG endet.

Jedes Frame durchläuft Kamera → GPU-Triage-Tensor → NPU-Triage. ai-funnel prüft die Labels und leitet pro Erkennung weiter: die GPU schneidet die ROI neu zu, der NPU führt das nachgelagerte Modell aus, das Ergebnis schleift entweder zurück zum Router für die nächste DAG-Stufe oder verlässt den DAG zum Kunden-Container — Tracking, Karte, Cloud-Nachricht, CAN — abhängig vom DAG-Endknoten.

Run-Phase des AI-Funnel-Deployment-Lifecycles, pro Frame auf dem Gerät. Die Kamera oder der Sensor erzeugt einen gemeinsamen GPU-Frame. Die GPU erzeugt einen Triage-Tensor. Das NPU-Triage-Modell gibt Labels und Bounding Boxes an den AI-Funnel-DAG-Router aus. Der Router leitet pro Erkennung weiter: die GPU schneidet die Region of Interest mit Letterboxing und Normalisierung neu zu, der NPU führt das nachgelagerte Modell aus und gibt Labels und Konfidenz zurück. Der Router schleift entweder zurück zum Verketten des nächsten DAG-Stadiums oder verlässt den DAG zum Kunden-Container — Tracking, Karte, Cloud-Nachricht oder CAN.

flowchart LR
  SRC["Kamera / Sensor<br/>gemeinsamer GPU-Frame"]
  GPU1["GPU<br/>Triage-Tensor"]
  NPU1["NPU-Triage<br/>Labels + BBoxen"]
  AIF["AI-Funnel<br/>DAG-Router"]
  GPU2["GPU<br/>Pro-Erkennung ROI<br/>Letterbox · Normalisieren"]
  NPU2["NPU-Modell<br/>Labels + Konfidenz"]
  SINK["Kunden-Container<br/>Tracking · Karte · Cloud-Nachricht · CAN"]
  SRC --> GPU1 --> NPU1 --> AIF
  AIF --> GPU2 --> NPU2 --> AIF
  AIF --> SINK
  class NPU1,NPU2 ai-node
Run-Phase. NPU-Inferenz-Schritte sind bernstein. Die Router-zu-Modell-zurück-zum-Router-Kanten zeigen den DAG-Loopback; die letzte Kante zum Kunden-Container ist das DAG-Terminal.

Für die kameraseitige Eingabe-Matrix (MIPI-CSI, GMSL2, UVC, RTSP, WebRTC) siehe Vision-Fähigkeiten.

Observability

14 eingebaute Metriken über die Pipeline.

Jede Pipeline-Stufe gibt Prometheus-Metriken aus — Aufrufe, Fehler, Dauer-Histogramme, Watchdog-Heartbeat. 14 Metriken über GPU-ROI-Shader und KI-Laufzeit, kein Pro-Service-Autorenaufwand. Vollständigen Operations-Katalog ansehen →

Test-Doubles

Entwickeln ohne Hardware.

Provider-veröffentlichte Fakes für CI und Off-Target-Entwicklung
Fake-Component Test-Umfang CI-ausführbar
AI-Laufzeit-Fake Model-Inferenz-Stub Ja — kein NPU-Hardware
GPU-ROI-Shader-Fake GPU-ROI-Extraktion-Stub Ja — kein GPU erforderlich
Mock-Frame-Quelle/-Senke Frame-Bus Pub/Sub Ja — rein auf Host
Sim-Datei-Quelle Kamera-Eingabe-Wiedergabe Ja — dateibasiert

Gesamte Pipeline auf jedem Laptop aufbauen und validieren. SDK und Entwickler-Workflow ansehen →

FAQ

Häufig gestellte Fragen

  • Werden Pixel-Bytes auf dem CPU im Hot Path je kopiert?

    Nein, absichtlich nicht. Kamera, GPU und NPU tauschen denselben Shared-Memory-Frame per Handle-Passing aus — kein Buffer-Kopieren in keinem Schritt.

  • Welche Modell-Formate akzeptiert die KI-Laufzeit?

    TFLite direkt. ONNX wird in der Pipeline automatisch konvertiert, sodass Teams mit ONNX-Export-Pfaden beide Formate liefern können.

  • Kann ich mehrere Modelle gleichzeitig ausführen?

    Ja. Die KI-Laufzeit lädt mehrere Modelle gleichzeitig. Same-Model-Re-Entry wird konstruktionsbedingt verhindert. Der Serialisierungsmodus (pro Modell oder globale Einzelspur) ist ohne Neukompilierung konfigurierbar.

  • Kann ich ohne NPU-Hardware entwickeln?

    Ja. Provider-veröffentlichte Fakes (KI-Laufzeit, GPU-ROI-Shader, Frame-Quelle/-Senke, Datei-Wiedergabe) ermöglichen die Entwicklung und den Integrationstest der gesamten Pipeline ohne NPU-Hardware, Kamera-Sensor oder Bazel.

Architektur-FAQ

Implementierungsdetails

  • Wie funktioniert die Zero-Copy-Übergabe technisch?

    Kamera-Frames überqueren die Prozessgrenze per Handle-Passing. Der GPU-ROI-Shader importiert sie und führt Crop-, Resize- und Normalize-Compute-Shader vollständig auf der GPU aus. Das Ausgabe-Tensor-Handle wird an die KI-Laufzeit übergeben, die den Silicon-Vendor-NPU-Delegate antreibt.

  • Ist GPU-zu-NPU-Shared-Memory auf der MIPI-CSI-AI-class-Variante verfügbar?

    Nein. GPU-zu-NPU-Shared-Memory ist nur auf der Serializer-Bridge-AI-class-Variante verfügbar. Die MIPI-CSI-Variante verwendet GPU-ROI-Extraktion und übergibt den Tensor als Standard-Buffer an den NPU. Beide Varianten teilen dieselbe Vulkan-ROI-Pipeline.

Text-KI-Plattform

AI Language — die Text-Intelligenz-Begleitplattform.

AI Funnel ist die visuelle Build-Intelligence-Engine. Die Begleitplattform für Text ist AI Language — On-Device-LLM, refuse-preferred RAG, Vier-Schichten-Prompt-Injection-Abwehr und mehrsprachige Sprache, standardmäßig offline.

Beide Plattformen laufen auf demselben Gerät und teilen den MOS4-EventBus und OTA-Kanal. AI Funnel führt die visuelle Pipeline aus; AI Language führt die Sprachpipeline aus. Zusammen bilden sie die Runtime-Schicht der MOS4 AI Software Suite.

AI Language Plattform ansehen →

Weiter erkunden

Verwandte Fähigkeiten

KI-class-Hardware

Formfaktoren, Silizium-Stufen und Konnektivitätsoptionen für AI-Funnel-Deployment.

Hardware ansehen →

No-Code-Plattform

AI Funnel ist einer von vier deklarativen Engines. Kombinieren Sie mit Multi-Stacks, Signalverarbeitung und Event-Processing — alles in TOML oder YAML konfiguriert, kein Code erforderlich.

No-Code-Plattform ansehen →

SDK und Entwickler-Tools

Hot-Swap micro services, CLI-Tooling und eine Test-Double-Bibliothek für die Off-Target-Entwicklung.

SDK ansehen →

Bringen Sie das Modell und den Datensatz mit.

Bringen Sie den Inferenz-Task; das Engineering-Team erläutert den Capture-to-NPU-Pfad auf einem Zielgerät.

Bauen Sie auf MOS4?

Eine Antwort vom Engineering-Team, ~24 h. Kein Deck, kein NDA.

Mit Engineering sprechen