¿Qué sucede cuando alguien que opera clústeres ViciDial desde 2008 replantea una arquitectura de telefonía con IA desde cero? No surge otro producto SaaS más. Surge una Capa de Control de Llamadas que cambiará fundamentalmente el futuro del trabajo en los call centers.
Implementamos LiveKit y agentes de voz IA en centros de llamadas en producción a principios de 2024 — meses antes de que OpenAI y LiveKit anunciaran su asociación "Advanced Voice" en octubre de 2024. Lo que OpenAI comercializa hoy como innovador, nosotros no solo lo implementamos antes, sino que lo mejoramos fundamentalmente con nuestra Capa de Control de Llamadas autodesarrollada: la transferencia asistida, el aislamiento multi-mandante y el TTS de 7 emociones existían en esta combinación en ningún otro lugar del mundo — ni siquiera en OpenAI.
GoFonIA no es una startup que haya «descubierto» la telefonía con IA como tendencia. Es el resultado de 17 años de experiencia operativa en call centers — comprimidos en una arquitectura que sabe todo lo que un call center necesita antes de que entre la primera llamada.
Implementación y operación de instalaciones productivas de ViciDial. Marcación predictiva, scripting de agentes, gestión de campañas — todo el espectro de la tecnología clásica de call centers sobre base de código abierto.
Operación de configuraciones multi-operador con trunking SIP a través de Telekom, Plusnet, dus.net, voip2gsm. Optimización de Asterisk a nivel de kernel. Desarrollo de herramientas propias de monitorización e informes. El conocimiento de dónde encuentra sus límites la tecnología de call centers — y por qué.
Primeros experimentos con modelos de lenguaje en contextos de telefonía. La conclusión: ningún framework existente puede hacer lo que un call center real necesita. Ni los proveedores cloud estadounidenses ni las alternativas europeas.
Inicio del desarrollo propio. La pregunta central: ¿cómo se construye un controlador de telefonía que no solo pueda «responder llamadas», sino que represente la lógica completa de un call center — incluyendo transferencia asistida, colas de espera, aislamiento de mandantes y orquestación SIP?
Finalización de la arquitectura de sala única con lógica de transferencia de 5 fases, TTS de 7 emociones, enrutamiento DID multi-mandante y motor supervisor. Despliegue productivo con los primeros clientes.
El núcleo de GoFonIA no es un modelo de IA. Es una capa de control desarrollada internamente que opera entre la red telefónica y la IA — orquestando toda la lógica de llamadas. Esta capa no existe de esta forma en ningún otro lugar de la región DACH.
Porque los frameworks de telefonía estándar no se construyeron para mantener a cuatro participantes en una sala y conmutar los flujos de audio entre ellos en tiempo real. Porque la telefonía con IA convencional solo conoce «llamada → respuesta» — pero no «el agente presenta, el colega escucha, suena música, el llamante espera, todos en la misma sala». Porque el aislamiento de mandantes a nivel DID, el registro de herramientas en tiempo de ejecución y la orquestación SIP con estrategias de respaldo no están previstos en ningún kit SaaS del mundo.
La Capa de Control opera en cinco niveles simultáneamente:
Reconocimiento de mandante basado en DID durante el handshake SIP. Creación dinámica de participantes mediante SIP saliente. Gestión de BYE al finalizar la conexión.
Arquitectura de sala única: todos los participantes en la misma sala. La matriz de suscripción regula quién escucha a quién. Conmutación de audio controlada por fases sin interrupción de la conexión.
Máquina de estados de 5 fases con timeouts y respaldos. MOH específico por mandante (Music-on-Hold, biblioteca de 8 GB libre de derechos). Briefing del agente al colega de destino. Retorno en caso de no disponibilidad.
Por mandante: claves API propias, prompts, voces, matriz de emociones, base de conocimiento, herramientas, credenciales SIP. Motor de sesiones basado en Redis. Sin fugas entre mandantes.
Monitorización autónoma de todas las salas activas. Detección de timeouts, eliminación de salas por API, limpieza de estado Redis, envío de transcripciones por correo electrónico. Totalmente automatizado en < 2 segundos.
Cada llamada atraviesa en milisegundos una cadena de decisión que opera en siete niveles independientes en paralelo:
Participante SIP en la sala
LLM + 7 voces emocionales
Cola de espera WebRTC
SIP saliente en la sala
GoFonIA no utiliza TTS genérico. Cada mandante recibe una matriz de emociones calibrable con siete perfiles de voz dimensionales — configurable individualmente por mandante, por campaña, por tipo de llamada. La voz no solo reacciona semánticamente, sino paraverbalmente.
Estado base. Objetivo, denso en información. Para consultas de estado y comunicación de hechos.
Cálida, cercana, abierta. Para saludos, conversación informal, llamadas de servicio.
Comprensiva, paciente, desescaladora. Para reclamaciones y temas sensibles.
Formal, precisa, cortésmente distanciada. Para B2B, banca, seguros, contexto administrativo.
Impulsora, orientada a soluciones, enérgica. Para llamadas de ventas y campañas orientadas a conversión.
Tranquila, profunda, generadora de confianza. Para soporte de primer nivel, colas de espera, líneas técnicas.
Clara, directa, establecedora de límites. Para cobros, verificaciones de cumplimiento, escalación.
La matriz de emociones opera en dos ejes paraverbales: velocidad del habla (0.6×–2.4×) y timbre vocal (desplazamiento de frecuencia ±18%). Además de lógica de pausas contextual: el agente sabe cuándo el silencio es una herramienta más poderosa que el habla.
Sin AWS. Sin Google Cloud. Sin Azure. GoFonIA se ejecuta en servidores raíz dedicados de Hetzner en Fráncfort del Meno y Núremberg — virtualizados mediante Proxmox, orquestados en contenedores LXC aislados.
Por mandante: contenedor LXC aislado con su propio almacén Redis, sus propias claves API, sus propias versiones de prompts y su propio registro SIP. Sin memoria compartida. Sin flujo de datos entre mandantes. Cada contenedor es un sistema de telefonía autónomo que puede ser respaldado, migrado y escalado individualmente.
Para sectores sensibles utilizamos exclusivamente IA europea — Mistral AI (París) e Infomaniak (Suiza) para LLM, TTS y STT. Bajo petición totalmente on-premise: Todo nuestro stack — LLM, TTS, STT y Call Control Layer — se ejecuta en su propio hardware. Diseñado para bancos, aseguradoras, administraciones públicas, despachos de abogados y el sector sanitario. El funcionamiento es totalmente conforme al RGPD en servidores de Hetzner Online GmbH con contrato de encargado de tratamiento según el Art. 28 del RGPD.
Cada byte que GoFonIA procesa permanece en servidores de Hetzner Online GmbH en Fráncfort del Meno y Núremberg. Los modelos de IA utilizados — Mistral AI (París) e Infomaniak (Suiza) — tienen su domicilio legal en la Unión Europea. Libre de EE.UU. por defecto. Para sectores sensibles (banca, seguros, administración pública, abogacía, sanidad) entregamos todo el stack on-premise en hardware del cliente.
Sin US Cloud Act. Sin transferencia a terceros países. Sin fuga silenciosa de datos. Conforme con §203 StGB. Auditado según RGPD. Único en la región DACH.
La Capa de Control de Llamadas de GoFonIA no está diseñada para reemplazar a los agentes humanos. Está diseñada para redefinir la división del trabajo entre humanos y máquinas.
Las llamadas rutinarias — concertación de citas, consultas de estado, preguntas frecuentes simples — son gestionadas de forma totalmente autónoma por el agente de IA. Los casos complejos — reclamaciones, negociaciones, asesoramiento — se transfieren a un colega humano con contexto completo y briefing estructurado. El colega toma la llamada sin tiempo de adaptación, porque el agente ya ha aclarado y documentado todo.
El resultado: los call centers no se hacen más pequeños. Se hacen mejores. El trabajo repetitivo desaparece. El trabajo exigente permanece — y se alivia con una preparación perfecta. Esto no es automatización. Esto es aumentación.
No construimos IA que reemplace a las personas. Construimos una capa de control que orquesta 17 años de conocimiento de call centers en tiempo real — para que las personas en el call center puedan hacer por fin aquello para lo que realmente están: resolver problemas complejos. No rellenar formularios.