Plattform · AI Language
LLM, Retrieval und Sprache auf dem Gerät.
MOS4 AI Language führt ein quantisiertes Sprachmodell, eine verankerte RAG-Pipeline und mehrsprachige Spracherkennung vollständig auf dem Gerät aus. Cloud ist opt-in. Jede Antwort trägt einen vollständigen Herkunftsdatensatz.
Pfeiler 1
LLM auf dem Gerät, offline-first.
Ein quantisiertes kleines Sprachmodell läuft vollständig auf dem Gerät. Cloud-Zugriff ist opt-in hinter drei unabhängigen Schranken. Keine Cloud-Abhängigkeit für die Kerninferenz.
Referenzmodell: SmolLM2 360M (4-Bit-quantisiert)
Läuft auf compute-class-Silizium mit etwa 280 MB RAM-Footprint. Größere oder kleinere Modelle können ohne Codeänderungen substituiert werden — entsprechend RAM- und Latenzbudgets. Dies ist ein Akzeptanzkriterium für die Referenzkonfiguration.
Dreifache Cloud-Opt-in-Schranke
Cloud-Fallback erfordert explizite Konfiguration auf drei unabhängigen Schichten: Der System-Prompt muss Cloud-Eskalation erlauben, die MCP-Tool-Allowlist muss den Cloud-Connector enthalten, und die geräteseitige Netzwerkrichtlinie muss ausgehende Anfragen erlauben. Alle drei Schranken müssen offen sein. Standardkonfiguration ist offline.
Pfeiler 2
Dokumentiertes RAG mit Ablehnungsschranke.
Retrieval-Augmented Generation mit kalibriertem Ähnlichkeitsschwellenwert. Unterhalb des Schwellenwerts verweigert das System eine Antwort anstatt zu halluzinieren.
Kosinus-Ähnlichkeitsschwellenwerte
Erster Chunk: ≥ 0,55. Durchschnitt der drei besten: ≥ 0,45. Beide sind Akzeptanzkriterien, kalibriert gegen einen 50-Fragen-Benchmark. Schwellenwerte sind pro Deployment konfigurierbar.
Ablehnungsschranke
Akzeptanzkriterium: ≥ 80 % Ablehnungsrate bei Fragen außerhalb des Korpus, ≤ 10 % Falschablehnungen bei Fragen innerhalb des Korpus. „Dazu habe ich keine Informationen" ist die korrekte Antwort wenn das Retrieval fehlschlägt.
BGE-small Embedding-Modell
Das Referenz-Embedding-Modell ist BGE-small, das auf dem Gerät läuft. Der Vektorindex wird aus vom Kunden bereitgestellten Dokumenten in der Integrationsphase erstellt und via OTA aktualisiert wenn sich der Korpus ändert.
Pfeiler 3
Vier-Schichten-Prompt-Injection-Abwehr.
Akzeptanzkriterium: ≥ 95 % Deflektionsrate auf einer 20-Prompt-Red-Team-Testsuite. Die Abwehr ist über Eingabe, System-Prompt, Korpus und Tool-Allowlist geschichtet.
MEP-Eingabe-Sanitierer-Aktion
Benutzereingaben durchlaufen eine MEP-Ereignisregel-Aktion, die bekannte Injektionsmuster entfernt bevor der Text das LLM erreicht. Konfigurierbare Deny-List, hot-reloadbar ohne Neustart.
System-Prompt-Absicherung
Die System-Prompt-Vorlage ist bei der Bereitstellung kryptografisch versiegelt. Versuche, ihn über Benutzereingaben zu überschreiben oder zu erweitern, werden auf Inferenzebene blockiert.
Korpus-Blockliste beim Build
Beim Korpus-Build wird Inhalt der einer konfigurierbaren Blockliste entspricht vom Vektorindex ausgeschlossen. Indirekte Injection über vergiftete Dokumente kann das Retrieval nicht erreichen.
MCP-Tool-Allowlist
Das Modell kann nur Tools aufrufen, die explizit in der MCP-Allowlist stehen. Keine Tool-Eskalation ist ohne Konfigurationsänderung durch den Operator möglich. Die Standardliste ist minimal.
Pfeiler 4
Antwortbezogenes Audit-Manifest.
Jede Antwort emittiert einen vollständigen Herkunftsdatensatz auf dem EventBus. Sechs Monate gleitende Aufbewahrung. Konzipiert als Nachweisgrundlage für EU-KI-Verordnung §10 und §13.
EventBus-Topic: audit.answer.manifest.{session_id}
Jede Antwort veröffentlicht: beim Retrieval verwendete Chunk-IDs, Dokumentpfade, Modellversion, Kosinus-Ähnlichkeitswerte, Ablehnungsgrund (falls zutreffend) und einen Zeitstempel. Die Herkunft ist vollständig und maschinenlesbar.
Sechs Monate gleitende Aufbewahrung
Datensätze werden standardmäßig sechs Monate aufbewahrt und sind über den Observability-Stack zugänglich. Das Aufbewahrungsfenster ist konfigurierbar. Datensätze sind für den Export in Compliance-Tools strukturiert.
Siehe EU-KI-Verordnungs-Posture für die vollständige Compliance-Zuordnung.
Pfeiler 5
Mehrsprachige Industriesprache.
Whisper-tiny mehrsprachig mit obligatorischer STT-Vokabular-Anreicherung. Akzeptanzkriterium: WER ≤ 15 % bei 70–75 dB industriellem Hintergrundgeräusch.
Whisper-tiny auf dem Gerät
Spracherkennung läuft auf dem Gerät mit Whisper-tiny mehrsprachig. Keine Cloud-STT- Abhängigkeit. Audio verlässt das Gerät standardmäßig nie.
Obligatorische STT-Vokabular-Anreicherung
Domänenspezifische Begriffe — Teilenummern, Prozesskennzeichen, Produktnamen — werden bei der Bereitstellung in das STT-Vokabular injiziert. Die Erkennung kundenspezifischen Vokabulars ist eine Integrationsanforderung, keine Option.
Streaming-TTS mit Piper
Text-zu-Sprache verwendet Piper für die On-Device-Synthese. Erstes-Audio-Latenzziel liegt bei etwa 200–300 ms. Piper unterstützt mehrere Sprachen und Stimmen ohne Cloud-Abhängigkeit.
Mehr entdecken
Verwandte Fähigkeiten.
AI Funnel — visuelle Intelligenz-Engine
Deklarieren Sie Ihre Vision-KI-Pipeline in TOML. Cloud Connect trainiert neu, paketiert und OTA-deployed. Kamera zu NPU ohne CPU-Pixel-Kopien.
AI Vision — Kamera und Pose-Tracking
Fünf Kamera-Eingaben, GPU-Crop und -Resize, NPU-Inferenz auf AI-class-Silizium und visuell-inertiales Pose-Tracking. Das visuelle Intelligenz-Pendant.
Compliance · CRA und EU-KI-Verordnung
CRA-Schwachstellenbehandlung, RED-Funk-Compliance, SBOM und die EU-KI-Verordnungs-Posture einschließlich Audit-Manifest-Nachweise und Bedrohungsmodell-Schranken.
Hardware — Silizium-Tiers
AI Language läuft auf compute-class und AI-class Silizium. Tier-Definitionen, Formfaktoren und Konnektivitätsoptionen auf der Hardware-Seite.
SDK — Sechs-Sprachen-Entwickleroberfläche
Erweitern Sie AI Language mit benutzerdefinierten MEP-Aktionen, MCP-Tools und RAG-Korpus-Buildern mit dem SDK in sechs Sprachen einschließlich Lua 5.4.
Kiosk-Lösung
Sprach-first-Kiosk mit verankerten Antworten, Ablehnungsschranke und antwortbezogenem Audit-Manifest. AI Language als Plattform für eine vollständige Vertikallösung.
FAQ
Häufig gestellte Fragen
-
Benötigt das LLM eine Cloud-Verbindung?
Nein. Das LLM läuft standardmäßig vollständig auf dem Gerät. Cloud-Zugriff ist opt-in hinter drei unabhängigen Sicherheitsschranken und muss explizit konfiguriert werden. Offline-Betrieb ist die Standardkonfiguration.
-
Wie funktioniert die RAG-Ablehnungsschranke?
Jede Suchanfrage prüft die Kosinus-Ähnlichkeit mit dem indizierten Korpus: Der erste Chunk muss ≥ 0,55 erreichen und der Durchschnitt der drei besten Chunks ≥ 0,45. Unterhalb des Schwellenwerts antwortet das System „Dazu habe ich keine Informationen" anstatt zu halluzinieren. Die Schwellenwerte sind gegen einen 50-Fragen-Benchmark kalibriert.
-
Welche Spracherkennungsgenauigkeit ist in industriellen Umgebungen zu erwarten?
Das Akzeptanzkriterium ist WER ≤ 15 % bei 70–75 dB Hintergrundlärm — typische Werte für Fabrikhallen. Eine obligatorische STT-Vokabular-Anreicherung stellt sicher, dass domänenspezifische Begriffe (Teilenummern, Prozesskennzeichen) korrekt erkannt werden. Dies ist ein Akzeptanzkriterium für die Integration, keine Produktionsgarantie für jedes Deployment.
-
Wie unterstützt das Audit-Manifest die EU-KI-Verordnungs-Compliance?
Jede Antwort emittiert einen vollständigen Herkunftsdatensatz auf dem EventBus: Chunk-IDs, Dokumentpfade, Modellversion, Ähnlichkeitswerte und Ablehnungsgrund wenn zutreffend. Datensätze werden standardmäßig sechs Monate aufbewahrt. Dieser Datensatz kann als Nachweisgrundlage für EU-KI-Verordnung §10 (Daten-Governance) und §13 (Transparenz) dienen. Siehe die Compliance-Seite für die vollständige Darstellung.
-
Welche Open-Source-Modelle werden unterstützt?
Die Referenzkonfiguration verwendet ein 4-Bit-quantisiertes SmolLM2 360M — etwa 280 MB RAM-Footprint auf dem Gerät. Größere oder kleinere quantisierte Modelle können entsprechend den RAM- und Latenzanforderungen substituiert werden. BGE-small ist das Standard-Embedding-Modell für RAG-Retrieval.
Bringen Sie Ihren Sprach-KI-Anwendungsfall.
Zeigen Sie uns das Domänenvokabular und die Lärmumgebung — das Engineering-Team führt durch RAG-Konfiguration, Vokabular-Anreicherung und Audit-Setup für Ihr Deployment.