Benötigt das LLM eine Cloud-Verbindung?

Nein. Das LLM läuft standardmäßig vollständig auf dem Gerät. Cloud-Zugriff ist opt-in hinter drei unabhängigen Sicherheitsschranken und muss explizit konfiguriert werden. Offline-Betrieb ist die Standardkonfiguration.

Wie funktioniert die RAG-Ablehnungsschranke?

Jede Suchanfrage prüft die Kosinus-Ähnlichkeit mit dem indizierten Korpus: Der erste Chunk muss ≥ 0,55 erreichen und der Durchschnitt der drei besten Chunks ≥ 0,45. Unterhalb des Schwellenwerts antwortet das System „Dazu habe ich keine Informationen" anstatt zu halluzinieren. Die Schwellenwerte sind gegen einen 50-Fragen-Benchmark kalibriert.

Welche Spracherkennungsgenauigkeit ist in industriellen Umgebungen zu erwarten?

Das Akzeptanzkriterium ist WER ≤ 15 % bei 70–75 dB Hintergrundlärm — typische Werte für Fabrikhallen. Eine obligatorische STT-Vokabular-Anreicherung stellt sicher, dass domänenspezifische Begriffe (Teilenummern, Prozesskennzeichen) korrekt erkannt werden. Dies ist ein Akzeptanzkriterium für die Integration, keine Produktionsgarantie für jedes Deployment.

Welche Open-Source-Modelle werden unterstützt?

Die Referenzkonfiguration verwendet ein 4-Bit-quantisiertes SmolLM2 360M — etwa 280 MB RAM-Footprint auf dem Gerät. Größere oder kleinere quantisierte Modelle können entsprechend den RAM- und Latenzanforderungen substituiert werden. BGE-small ist das Standard-Embedding-Modell für RAG-Retrieval.

Plattform · AI Language

LLM, Retrieval und Sprache auf dem Gerät.

MOS4 AI Language führt ein quantisiertes Sprachmodell, eine verankerte RAG-Pipeline und mehrsprachige Spracherkennung vollständig auf dem Gerät aus. Cloud ist opt-in. Jede Antwort trägt einen vollständigen Herkunftsdatensatz.

Technisches Gespräch anfragen Audit-Trail ansehen

KI · Intelligenzschicht

~280 MB RAM auf dem Gerät Akzeptanzkriterium: SmolLM2 360M (4-Bit-quantisiert) auf compute-class

≤ 15 % WER bei 70–75 dB Akzeptanzkriterium: Sprache im industriellen Geräuschpegel

6 Monate Audit-Aufbewahrung antwortbezogener Herkunftsdatensatz, gleitendes Fenster

Pfeiler 1

LLM auf dem Gerät, offline-first.

Ein quantisiertes kleines Sprachmodell läuft vollständig auf dem Gerät. Cloud-Zugriff ist opt-in hinter drei unabhängigen Schranken. Keine Cloud-Abhängigkeit für die Kerninferenz.

Referenzmodell: SmolLM2 360M (4-Bit-quantisiert)

Läuft auf compute-class-Silizium mit etwa 280 MB RAM-Footprint. Größere oder kleinere Modelle können ohne Codeänderungen substituiert werden — entsprechend RAM- und Latenzbudgets. Dies ist ein Akzeptanzkriterium für die Referenzkonfiguration.

Dreifache Cloud-Opt-in-Schranke

Cloud-Fallback erfordert explizite Konfiguration auf drei unabhängigen Schichten: Der System-Prompt muss Cloud-Eskalation erlauben, die MCP-Tool-Allowlist muss den Cloud-Connector enthalten, und die geräteseitige Netzwerkrichtlinie muss ausgehende Anfragen erlauben. Alle drei Schranken müssen offen sein. Standardkonfiguration ist offline.

Querschnitt eines Micro Services mit isolierter Inferenzschicht von Cloud-Konnektoren — Cloud-Schranke als separates Modul dargestellt

Pfeiler 2

Dokumentiertes RAG mit Ablehnungsschranke.

Retrieval-Augmented Generation mit kalibriertem Ähnlichkeitsschwellenwert. Unterhalb des Schwellenwerts verweigert das System eine Antwort anstatt zu halluzinieren.

Kosinus-Ähnlichkeitsschwellenwerte

Erster Chunk: ≥ 0,55. Durchschnitt der drei besten: ≥ 0,45. Beide sind Akzeptanzkriterien, kalibriert gegen einen 50-Fragen-Benchmark. Schwellenwerte sind pro Deployment konfigurierbar.

Ablehnungsschranke

Akzeptanzkriterium: ≥ 80 % Ablehnungsrate bei Fragen außerhalb des Korpus, ≤ 10 % Falschablehnungen bei Fragen innerhalb des Korpus. „Dazu habe ich keine Informationen" ist die korrekte Antwort wenn das Retrieval fehlschlägt.

BGE-small Embedding-Modell

Das Referenz-Embedding-Modell ist BGE-small, das auf dem Gerät läuft. Der Vektorindex wird aus vom Kunden bereitgestellten Dokumenten in der Integrationsphase erstellt und via OTA aktualisiert wenn sich der Korpus ändert.

Pfeiler 3

Vier-Schichten-Prompt-Injection-Abwehr.

Akzeptanzkriterium: ≥ 95 % Deflektionsrate auf einer 20-Prompt-Red-Team-Testsuite. Die Abwehr ist über Eingabe, System-Prompt, Korpus und Tool-Allowlist geschichtet.

MEP-Eingabe-Sanitierer-Aktion

Benutzereingaben durchlaufen eine MEP-Ereignisregel-Aktion, die bekannte Injektionsmuster entfernt bevor der Text das LLM erreicht. Konfigurierbare Deny-List, hot-reloadbar ohne Neustart.

System-Prompt-Absicherung

Die System-Prompt-Vorlage ist bei der Bereitstellung kryptografisch versiegelt. Versuche, ihn über Benutzereingaben zu überschreiben oder zu erweitern, werden auf Inferenzebene blockiert.

Korpus-Blockliste beim Build

Beim Korpus-Build wird Inhalt der einer konfigurierbaren Blockliste entspricht vom Vektorindex ausgeschlossen. Indirekte Injection über vergiftete Dokumente kann das Retrieval nicht erreichen.

MCP-Tool-Allowlist

Das Modell kann nur Tools aufrufen, die explizit in der MCP-Allowlist stehen. Keine Tool-Eskalation ist ohne Konfigurationsänderung durch den Operator möglich. Die Standardliste ist minimal.

Pfeiler 4

Antwortbezogenes Audit-Manifest.

Jede Antwort emittiert einen vollständigen Herkunftsdatensatz auf dem EventBus. Sechs Monate gleitende Aufbewahrung. Konzipiert als Nachweisgrundlage für EU-KI-Verordnung §10 und §13.

EventBus-Topic: `audit.answer.manifest.{session_id}`

Jede Antwort veröffentlicht: beim Retrieval verwendete Chunk-IDs, Dokumentpfade, Modellversion, Kosinus-Ähnlichkeitswerte, Ablehnungsgrund (falls zutreffend) und einen Zeitstempel. Die Herkunft ist vollständig und maschinenlesbar.

Sechs Monate gleitende Aufbewahrung

Datensätze werden standardmäßig sechs Monate aufbewahrt und sind über den Observability-Stack zugänglich. Das Aufbewahrungsfenster ist konfigurierbar. Datensätze sind für den Export in Compliance-Tools strukturiert.

Zeitstrahl mit Audit-Ereignissen die bei jeder Antwort gestempelt werden — Sechs-Monats-Aufbewahrungsfenster rechts angezeigt

Siehe EU-KI-Verordnungs-Posture für die vollständige Compliance-Zuordnung.

Pfeiler 5

Mehrsprachige Industriesprache.

Whisper-tiny mehrsprachig mit obligatorischer STT-Vokabular-Anreicherung. Akzeptanzkriterium: WER ≤ 15 % bei 70–75 dB industriellem Hintergrundgeräusch.

Whisper-tiny auf dem Gerät

Spracherkennung läuft auf dem Gerät mit Whisper-tiny mehrsprachig. Keine Cloud-STT- Abhängigkeit. Audio verlässt das Gerät standardmäßig nie.

Obligatorische STT-Vokabular-Anreicherung

Domänenspezifische Begriffe — Teilenummern, Prozesskennzeichen, Produktnamen — werden bei der Bereitstellung in das STT-Vokabular injiziert. Die Erkennung kundenspezifischen Vokabulars ist eine Integrationsanforderung, keine Option.

Streaming-TTS mit Piper

Text-zu-Sprache verwendet Piper für die On-Device-Synthese. Erstes-Audio-Latenzziel liegt bei etwa 200–300 ms. Piper unterstützt mehrere Sprachen und Stimmen ohne Cloud-Abhängigkeit.

Dreistufige AI-Funnel-Pipeline auf dunklem Hintergrund — Kundenbereitstellung (TOML + ONNX/TFLite + Dataset), Munic-Cloud (Re-Training/Quantisierung/Validierung), On-Device-Runtime (NPU + GPU im Shared Memory)

Mehr entdecken

Häufig gestellte Fragen

Benötigt das LLM eine Cloud-Verbindung?

Nein. Das LLM läuft standardmäßig vollständig auf dem Gerät. Cloud-Zugriff ist opt-in hinter drei unabhängigen Sicherheitsschranken und muss explizit konfiguriert werden. Offline-Betrieb ist die Standardkonfiguration.
Wie funktioniert die RAG-Ablehnungsschranke?

Jede Suchanfrage prüft die Kosinus-Ähnlichkeit mit dem indizierten Korpus: Der erste Chunk muss ≥ 0,55 erreichen und der Durchschnitt der drei besten Chunks ≥ 0,45. Unterhalb des Schwellenwerts antwortet das System „Dazu habe ich keine Informationen" anstatt zu halluzinieren. Die Schwellenwerte sind gegen einen 50-Fragen-Benchmark kalibriert.
Welche Spracherkennungsgenauigkeit ist in industriellen Umgebungen zu erwarten?

Das Akzeptanzkriterium ist WER ≤ 15 % bei 70–75 dB Hintergrundlärm — typische Werte für Fabrikhallen. Eine obligatorische STT-Vokabular-Anreicherung stellt sicher, dass domänenspezifische Begriffe (Teilenummern, Prozesskennzeichen) korrekt erkannt werden. Dies ist ein Akzeptanzkriterium für die Integration, keine Produktionsgarantie für jedes Deployment.
Wie unterstützt das Audit-Manifest die EU-KI-Verordnungs-Compliance?

Jede Antwort emittiert einen vollständigen Herkunftsdatensatz auf dem EventBus: Chunk-IDs, Dokumentpfade, Modellversion, Ähnlichkeitswerte und Ablehnungsgrund wenn zutreffend. Datensätze werden standardmäßig sechs Monate aufbewahrt. Dieser Datensatz kann als Nachweisgrundlage für EU-KI-Verordnung §10 (Daten-Governance) und §13 (Transparenz) dienen. Siehe die Compliance-Seite für die vollständige Darstellung.
Welche Open-Source-Modelle werden unterstützt?

Die Referenzkonfiguration verwendet ein 4-Bit-quantisiertes SmolLM2 360M — etwa 280 MB RAM-Footprint auf dem Gerät. Größere oder kleinere quantisierte Modelle können entsprechend den RAM- und Latenzanforderungen substituiert werden. BGE-small ist das Standard-Embedding-Modell für RAG-Retrieval.

Bringen Sie Ihren Sprach-KI-Anwendungsfall.

Zeigen Sie uns das Domänenvokabular und die Lärmumgebung — das Engineering-Team führt durch RAG-Konfiguration, Vokabular-Anreicherung und Audit-Setup für Ihr Deployment.

Technisches Gespräch anfragen Kiosk-Lösung ansehen

LLM, Retrieval und Sprache auf dem Gerät.

LLM auf dem Gerät, offline-first.