¿Cómo funciona la puerta de rechazo del RAG?

Cada consulta de recuperación verifica la similitud de coseno con el corpus indexado: el chunk principal debe alcanzar ≥ 0,55 y la media de los tres principales debe alcanzar ≥ 0,45. Por debajo del umbral, el sistema responde «No tengo información sobre eso» en lugar de alucinar. Los umbrales están calibrados contra un benchmark de 50 preguntas.

¿Qué modelos de código abierto son compatibles?

La configuración de referencia utiliza un SmolLM2 360M cuantizado de 4 bits — aproximadamente 280 MB de huella de RAM en el dispositivo. Se pueden sustituir modelos cuantizados más grandes o pequeños según los requisitos de RAM y latencia. BGE-small es el modelo de embedding de referencia para la recuperación RAG.

Plataforma · AI Language

LLM, recuperación y voz en el dispositivo.

MOS4 AI Language ejecuta un modelo de lenguaje cuantizado, un pipeline RAG anclado y reconocimiento de voz multilingüe completamente en el dispositivo. La nube es opt-in. Cada respuesta lleva un registro de procedencia completo.

Hablar con ingeniería Ver el registro de auditoría

IA · capa de inteligencia

~280 MB RAM en dispositivo criterio de aceptación: SmolLM2 360M (cuantizado 4 bits) en compute-class

≤ 15 % WER a 70–75 dB criterio de aceptación: voz en nivel de ruido industrial

6 meses retención de auditoría registro de procedencia por respuesta, ventana deslizante

Pilar 1

LLM en dispositivo, offline-first.

Un modelo de lenguaje pequeño cuantizado se ejecuta completamente en el dispositivo. El acceso a la nube es opt-in detrás de tres puertas independientes. Sin dependencia de nube para la inferencia principal.

Modelo de referencia: SmolLM2 360M (cuantizado 4 bits)

Se ejecuta en silicio compute-class con aproximadamente 280 MB de huella de RAM. Modelos más grandes o pequeños pueden sustituirse sin cambios de código — según presupuestos de RAM y latencia. Este es un criterio de aceptación para la configuración de referencia.

Triple puerta de opt-in en la nube

El fallback a la nube requiere configuración explícita en tres capas independientes: el prompt del sistema debe permitir escalada a la nube, la lista de herramientas MCP permitidas debe incluir el conector de nube, y la política de red del dispositivo debe permitir solicitudes salientes. Las tres puertas deben estar abiertas. La postura predeterminada es sin conexión.

Sección transversal de un micro service mostrando la capa de inferencia aislada de los conectores de nube — puerta de nube mostrada como módulo separado

Pilar 2

RAG documentado con puerta de rechazo.

Generación aumentada por recuperación con umbral de similitud calibrado. Por debajo del umbral, el sistema rechaza responder en lugar de alucinar.

Umbrales de similitud de coseno

Chunk principal: ≥ 0,55. Media de los tres principales: ≥ 0,45. Ambos son criterios de aceptación calibrados contra un benchmark de 50 preguntas. Los umbrales son configurables por despliegue.

Puerta de rechazo

Criterio de aceptación: ≥ 80 % de tasa de rechazo en preguntas fuera del corpus, ≤ 10 % de falsos rechazos en preguntas dentro del corpus. «No tengo información sobre eso» es la respuesta correcta cuando la recuperación falla.

Modelo de embedding BGE-small

El modelo de embedding de referencia es BGE-small, que se ejecuta en el dispositivo. El índice vectorial se construye a partir de documentos proporcionados por el cliente durante la fase de integración y se actualiza vía OTA cuando cambia el corpus.

Pilar 3

Defensa de inyección de prompt en cuatro capas.

Criterio de aceptación: ≥ 95 % de tasa de deflexión en una suite de pruebas red-team de 20 prompts. La defensa está en capas a través de entrada, prompt del sistema, corpus y lista de herramientas permitidas.

Acción MEP de saneamiento de entrada

La entrada del usuario pasa por una acción de regla de evento MEP que elimina patrones de inyección conocidos antes de que el texto llegue al LLM. Lista de denegación configurable, recargable en caliente sin reinicio.

Cercado del prompt del sistema

La plantilla del prompt del sistema está sellada criptográficamente en el momento del despliegue. Los intentos de anularla o añadir contenido mediante entrada del usuario son bloqueados en la capa de inferencia.

Lista de bloqueo en la construcción del corpus

Durante la construcción del corpus, el contenido que coincide con una lista de bloqueo configurable queda excluido del índice vectorial. La inyección indirecta a través de documentos envenenados no puede llegar a la recuperación.

Lista de herramientas MCP permitidas

El modelo solo puede llamar a herramientas explícitamente listadas en la lista de herramientas MCP permitidas. No es posible ninguna escalada de herramientas sin un cambio de configuración del operador. La lista predeterminada es mínima.

Pilar 4

Manifiesto de auditoría por respuesta.

Cada respuesta emite un registro de procedencia completo en el EventBus. Retención deslizante de seis meses. Diseñado como evidencia para las obligaciones del AI Act de la UE §10 y §13.

Topic EventBus: `audit.answer.manifest.{session_id}`

Cada respuesta publica: IDs de chunks usados en la recuperación, rutas de documentos, versión del modelo, puntuaciones de similitud de coseno, motivo de rechazo (cuando corresponde) y una marca de tiempo. La procedencia es completa y legible por máquina.

Retención deslizante de seis meses

Los registros se retienen seis meses de forma predeterminada y son accesibles a través de la pila de observabilidad. La ventana de retención es configurable. Los registros están estructurados para exportar a herramientas de cumplimiento.

Línea de tiempo que muestra eventos de auditoría sellados en cada respuesta — ventana de retención de seis meses indicada a la derecha

Ver postura AI Act de la UE para el mapeo de cumplimiento completo.

Pilar 5

Voz industrial multilingüe.

Whisper-tiny multilingüe con impulso de vocabulario STT obligatorio. Criterio de aceptación: WER ≤ 15 % a 70–75 dB de nivel de ruido de fábrica.

Whisper-tiny en el dispositivo

El reconocimiento de voz se ejecuta en el dispositivo con Whisper-tiny multilingüe. Sin dependencia de STT en la nube. El audio nunca abandona el dispositivo de forma predeterminada.

Impulso de vocabulario STT obligatorio

Los términos específicos del dominio — números de pieza, códigos de proceso, nombres de productos — se inyectan en el vocabulario STT en el momento del despliegue. El reconocimiento del vocabulario específico del cliente es un requisito de integración, no una opción.

TTS en streaming con Piper

La síntesis de voz utiliza Piper para síntesis en el dispositivo. El objetivo de latencia de primer audio es aproximadamente 200–300 ms. Piper admite múltiples idiomas y voces sin dependencia de nube.

Pipeline AI Funnel en tres etapas sobre fondo oscuro — entrega del cliente (TOML + ONNX/TFLite + dataset), nube Munic (reentrena/cuantiza/valida), runtime en dispositivo (NPU + GPU en memoria compartida)

Explorar más

Capacidades relacionadas.

AI Funnel — motor de inteligencia visual

Declare su pipeline de IA de visión en TOML. Cloud Connect vuelve a entrenar, empaqueta y OTA-despliega. Cámara a NPU sin copias de píxeles en CPU.

Ver AI Funnel →

AI Vision — cámara y seguimiento de pose

Cinco entradas de cámara, recorte y reescalado en GPU, inferencia NPU en silicio AI-class y seguimiento de pose visual + inercial. El complemento visual de inteligencia.

Ver AI Vision →

Cumplimiento · CRA y AI Act de la UE

Gestión de vulnerabilidades CRA, cumplimiento de radio RED, SBOM y la postura del AI Act que cubre la evidencia del manifiesto de auditoría y las puertas del modelo de amenazas.

Ver cumplimiento →

Hardware — niveles de silicio

AI Language se ejecuta en silicio compute-class y AI-class. Ver la página de hardware para definiciones de niveles, factores de forma y opciones de conectividad.

Ver hardware →

SDK — superficie de desarrollador en seis lenguajes

Extienda AI Language con acciones MEP personalizadas, herramientas MCP y constructores de corpus RAG utilizando el SDK en seis lenguajes incluyendo Lua 5.4.

Ver el SDK →

Solución Kiosk

Kiosk voz-first con respuestas ancladas, puerta de rechazo y manifiesto de auditoría por respuesta. AI Language como plataforma para una solución vertical completa.

Ver solución Kiosk →

Explorar todos los micro services →

FAQ

Preguntas frecuentes

¿El LLM requiere conexión a la nube?

No. El LLM se ejecuta completamente en el dispositivo de forma predeterminada. El acceso a la nube es opt-in detrás de tres puertas independientes y debe configurarse explícitamente. La operación sin conexión es la postura predeterminada.
¿Cómo funciona la puerta de rechazo del RAG?

Cada consulta de recuperación verifica la similitud de coseno con el corpus indexado: el chunk principal debe alcanzar ≥ 0,55 y la media de los tres principales debe alcanzar ≥ 0,45. Por debajo del umbral, el sistema responde «No tengo información sobre eso» en lugar de alucinar. Los umbrales están calibrados contra un benchmark de 50 preguntas.
¿Qué precisión de voz puedo esperar en entornos industriales?

El criterio de aceptación es WER ≤ 15 % a 70–75 dB de ruido de fondo — niveles típicos de un piso de fábrica. Un impulso de vocabulario STT obligatorio garantiza que los términos específicos del dominio (números de pieza, códigos de proceso) se reconozcan con precisión. Este es un criterio de aceptación para la integración, no una garantía de producción para cada despliegue.
¿Cómo apoya el manifiesto de auditoría el cumplimiento del AI Act de la UE?

Cada respuesta emite un registro de procedencia completo en el EventBus: IDs de chunks, rutas de documentos, versión del modelo, puntuaciones de similitud y motivo de rechazo cuando corresponde. Los registros se retienen seis meses de forma predeterminada. Este registro puede servir como evidencia para las obligaciones del AI Act de la UE §10 (gobernanza de datos) y §13 (transparencia). Consulte la página de cumplimiento para la postura completa.
¿Qué modelos de código abierto son compatibles?

La configuración de referencia utiliza un SmolLM2 360M cuantizado de 4 bits — aproximadamente 280 MB de huella de RAM en el dispositivo. Se pueden sustituir modelos cuantizados más grandes o pequeños según los requisitos de RAM y latencia. BGE-small es el modelo de embedding de referencia para la recuperación RAG.

Traiga su caso de uso de voz-IA.

Muéstrenos el vocabulario del dominio y el entorno de ruido — ingeniería explicará la configuración RAG, el impulso de vocabulario y la configuración de auditoría para su despliegue.

Hablar con ingeniería Ver solución Kiosk