Plattform · AI Language

LLM, Retrieval und Sprache auf dem Gerät.

MOS4 AI Language führt ein quantisiertes Sprachmodell, eine verankerte RAG-Pipeline und mehrsprachige Spracherkennung vollständig auf dem Gerät aus. Cloud ist opt-in. Jede Antwort trägt einen vollständigen Herkunftsdatensatz.

KI · Intelligenzschicht
~280 MB RAM auf dem Gerät Akzeptanzkriterium: SmolLM2 360M (4-Bit-quantisiert) auf compute-class
≤ 15 % WER bei 70–75 dB Akzeptanzkriterium: Sprache im industriellen Geräuschpegel
6 Monate Audit-Aufbewahrung antwortbezogener Herkunftsdatensatz, gleitendes Fenster
Edge-Gerät mit Cloud verbunden durch bidirektionalen Pfeil — Edge verarbeitet LLM und RAG auf dem Gerät; Cloud-Verbindung als opt-in hinter einer Schranke dargestellt

Pfeiler 1

LLM auf dem Gerät, offline-first.

Ein quantisiertes kleines Sprachmodell läuft vollständig auf dem Gerät. Cloud-Zugriff ist opt-in hinter drei unabhängigen Schranken. Keine Cloud-Abhängigkeit für die Kerninferenz.

Referenzmodell: SmolLM2 360M (4-Bit-quantisiert)

Läuft auf compute-class-Silizium mit etwa 280 MB RAM-Footprint. Größere oder kleinere Modelle können ohne Codeänderungen substituiert werden — entsprechend RAM- und Latenzbudgets. Dies ist ein Akzeptanzkriterium für die Referenzkonfiguration.

Dreifache Cloud-Opt-in-Schranke

Cloud-Fallback erfordert explizite Konfiguration auf drei unabhängigen Schichten: Der System-Prompt muss Cloud-Eskalation erlauben, die MCP-Tool-Allowlist muss den Cloud-Connector enthalten, und die geräteseitige Netzwerkrichtlinie muss ausgehende Anfragen erlauben. Alle drei Schranken müssen offen sein. Standardkonfiguration ist offline.

Querschnitt eines Micro Services mit isolierter Inferenzschicht von Cloud-Konnektoren — Cloud-Schranke als separates Modul dargestellt

Pfeiler 2

Dokumentiertes RAG mit Ablehnungsschranke.

Retrieval-Augmented Generation mit kalibriertem Ähnlichkeitsschwellenwert. Unterhalb des Schwellenwerts verweigert das System eine Antwort anstatt zu halluzinieren.

Kosinus-Ähnlichkeitsschwellenwerte

Erster Chunk: ≥ 0,55. Durchschnitt der drei besten: ≥ 0,45. Beide sind Akzeptanzkriterien, kalibriert gegen einen 50-Fragen-Benchmark. Schwellenwerte sind pro Deployment konfigurierbar.

Ablehnungsschranke

Akzeptanzkriterium: ≥ 80 % Ablehnungsrate bei Fragen außerhalb des Korpus, ≤ 10 % Falschablehnungen bei Fragen innerhalb des Korpus. „Dazu habe ich keine Informationen" ist die korrekte Antwort wenn das Retrieval fehlschlägt.

BGE-small Embedding-Modell

Das Referenz-Embedding-Modell ist BGE-small, das auf dem Gerät läuft. Der Vektorindex wird aus vom Kunden bereitgestellten Dokumenten in der Integrationsphase erstellt und via OTA aktualisiert wenn sich der Korpus ändert.

Pfeiler 3

Vier-Schichten-Prompt-Injection-Abwehr.

Akzeptanzkriterium: ≥ 95 % Deflektionsrate auf einer 20-Prompt-Red-Team-Testsuite. Die Abwehr ist über Eingabe, System-Prompt, Korpus und Tool-Allowlist geschichtet.

MEP-Eingabe-Sanitierer-Aktion

Benutzereingaben durchlaufen eine MEP-Ereignisregel-Aktion, die bekannte Injektionsmuster entfernt bevor der Text das LLM erreicht. Konfigurierbare Deny-List, hot-reloadbar ohne Neustart.

System-Prompt-Absicherung

Die System-Prompt-Vorlage ist bei der Bereitstellung kryptografisch versiegelt. Versuche, ihn über Benutzereingaben zu überschreiben oder zu erweitern, werden auf Inferenzebene blockiert.

Korpus-Blockliste beim Build

Beim Korpus-Build wird Inhalt der einer konfigurierbaren Blockliste entspricht vom Vektorindex ausgeschlossen. Indirekte Injection über vergiftete Dokumente kann das Retrieval nicht erreichen.

MCP-Tool-Allowlist

Das Modell kann nur Tools aufrufen, die explizit in der MCP-Allowlist stehen. Keine Tool-Eskalation ist ohne Konfigurationsänderung durch den Operator möglich. Die Standardliste ist minimal.

Pfeiler 4

Antwortbezogenes Audit-Manifest.

Jede Antwort emittiert einen vollständigen Herkunftsdatensatz auf dem EventBus. Sechs Monate gleitende Aufbewahrung. Konzipiert als Nachweisgrundlage für EU-KI-Verordnung §10 und §13.

EventBus-Topic: audit.answer.manifest.{session_id}

Jede Antwort veröffentlicht: beim Retrieval verwendete Chunk-IDs, Dokumentpfade, Modellversion, Kosinus-Ähnlichkeitswerte, Ablehnungsgrund (falls zutreffend) und einen Zeitstempel. Die Herkunft ist vollständig und maschinenlesbar.

Sechs Monate gleitende Aufbewahrung

Datensätze werden standardmäßig sechs Monate aufbewahrt und sind über den Observability-Stack zugänglich. Das Aufbewahrungsfenster ist konfigurierbar. Datensätze sind für den Export in Compliance-Tools strukturiert.

Zeitstrahl mit Audit-Ereignissen die bei jeder Antwort gestempelt werden — Sechs-Monats-Aufbewahrungsfenster rechts angezeigt

Siehe EU-KI-Verordnungs-Posture für die vollständige Compliance-Zuordnung.

Pfeiler 5

Mehrsprachige Industriesprache.

Whisper-tiny mehrsprachig mit obligatorischer STT-Vokabular-Anreicherung. Akzeptanzkriterium: WER ≤ 15 % bei 70–75 dB industriellem Hintergrundgeräusch.

Whisper-tiny auf dem Gerät

Spracherkennung läuft auf dem Gerät mit Whisper-tiny mehrsprachig. Keine Cloud-STT- Abhängigkeit. Audio verlässt das Gerät standardmäßig nie.

Obligatorische STT-Vokabular-Anreicherung

Domänenspezifische Begriffe — Teilenummern, Prozesskennzeichen, Produktnamen — werden bei der Bereitstellung in das STT-Vokabular injiziert. Die Erkennung kundenspezifischen Vokabulars ist eine Integrationsanforderung, keine Option.

Streaming-TTS mit Piper

Text-zu-Sprache verwendet Piper für die On-Device-Synthese. Erstes-Audio-Latenzziel liegt bei etwa 200–300 ms. Piper unterstützt mehrere Sprachen und Stimmen ohne Cloud-Abhängigkeit.

Dreistufige AI-Funnel-Pipeline auf dunklem Hintergrund — Kundenbereitstellung (TOML + ONNX/TFLite + Dataset), Munic-Cloud (Re-Training/Quantisierung/Validierung), On-Device-Runtime (NPU + GPU im Shared Memory)

Mehr entdecken

Verwandte Fähigkeiten.

AI Funnel — visuelle Intelligenz-Engine

Deklarieren Sie Ihre Vision-KI-Pipeline in TOML. Cloud Connect trainiert neu, paketiert und OTA-deployed. Kamera zu NPU ohne CPU-Pixel-Kopien.

AI Funnel ansehen →

AI Vision — Kamera und Pose-Tracking

Fünf Kamera-Eingaben, GPU-Crop und -Resize, NPU-Inferenz auf AI-class-Silizium und visuell-inertiales Pose-Tracking. Das visuelle Intelligenz-Pendant.

AI Vision ansehen →

Compliance · CRA und EU-KI-Verordnung

CRA-Schwachstellenbehandlung, RED-Funk-Compliance, SBOM und die EU-KI-Verordnungs-Posture einschließlich Audit-Manifest-Nachweise und Bedrohungsmodell-Schranken.

Compliance ansehen →

Hardware — Silizium-Tiers

AI Language läuft auf compute-class und AI-class Silizium. Tier-Definitionen, Formfaktoren und Konnektivitätsoptionen auf der Hardware-Seite.

Hardware ansehen →

SDK — Sechs-Sprachen-Entwickleroberfläche

Erweitern Sie AI Language mit benutzerdefinierten MEP-Aktionen, MCP-Tools und RAG-Korpus-Buildern mit dem SDK in sechs Sprachen einschließlich Lua 5.4.

SDK ansehen →

Kiosk-Lösung

Sprach-first-Kiosk mit verankerten Antworten, Ablehnungsschranke und antwortbezogenem Audit-Manifest. AI Language als Plattform für eine vollständige Vertikallösung.

Kiosk-Lösung ansehen →

Alle Micro Service Komponenten durchsuchen →

FAQ

Häufig gestellte Fragen

  • Benötigt das LLM eine Cloud-Verbindung?

    Nein. Das LLM läuft standardmäßig vollständig auf dem Gerät. Cloud-Zugriff ist opt-in hinter drei unabhängigen Sicherheitsschranken und muss explizit konfiguriert werden. Offline-Betrieb ist die Standardkonfiguration.

  • Wie funktioniert die RAG-Ablehnungsschranke?

    Jede Suchanfrage prüft die Kosinus-Ähnlichkeit mit dem indizierten Korpus: Der erste Chunk muss ≥ 0,55 erreichen und der Durchschnitt der drei besten Chunks ≥ 0,45. Unterhalb des Schwellenwerts antwortet das System „Dazu habe ich keine Informationen" anstatt zu halluzinieren. Die Schwellenwerte sind gegen einen 50-Fragen-Benchmark kalibriert.

  • Welche Spracherkennungsgenauigkeit ist in industriellen Umgebungen zu erwarten?

    Das Akzeptanzkriterium ist WER ≤ 15 % bei 70–75 dB Hintergrundlärm — typische Werte für Fabrikhallen. Eine obligatorische STT-Vokabular-Anreicherung stellt sicher, dass domänenspezifische Begriffe (Teilenummern, Prozesskennzeichen) korrekt erkannt werden. Dies ist ein Akzeptanzkriterium für die Integration, keine Produktionsgarantie für jedes Deployment.

  • Wie unterstützt das Audit-Manifest die EU-KI-Verordnungs-Compliance?

    Jede Antwort emittiert einen vollständigen Herkunftsdatensatz auf dem EventBus: Chunk-IDs, Dokumentpfade, Modellversion, Ähnlichkeitswerte und Ablehnungsgrund wenn zutreffend. Datensätze werden standardmäßig sechs Monate aufbewahrt. Dieser Datensatz kann als Nachweisgrundlage für EU-KI-Verordnung §10 (Daten-Governance) und §13 (Transparenz) dienen. Siehe die Compliance-Seite für die vollständige Darstellung.

  • Welche Open-Source-Modelle werden unterstützt?

    Die Referenzkonfiguration verwendet ein 4-Bit-quantisiertes SmolLM2 360M — etwa 280 MB RAM-Footprint auf dem Gerät. Größere oder kleinere quantisierte Modelle können entsprechend den RAM- und Latenzanforderungen substituiert werden. BGE-small ist das Standard-Embedding-Modell für RAG-Retrieval.

Bringen Sie Ihren Sprach-KI-Anwendungsfall.

Zeigen Sie uns das Domänenvokabular und die Lärmumgebung — das Engineering-Team führt durch RAG-Konfiguration, Vokabular-Anreicherung und Audit-Setup für Ihr Deployment.

Bauen Sie auf MOS4?

Eine Antwort vom Engineering-Team, ~24 h. Kein Deck, kein NDA.

Mit Engineering sprechen