Integraciones IA
RAG sobre tus datos y agentes LLM que funcionan en producción. Construimos features de IA como construirías cualquier otro feature de backend — medidos, observables, reversibles.
Qué es esto
Un equipo que construye features de IA que sobreviven al tráfico del lunes por la mañana. Elegimos infraestructura aburrida y evaluación agresiva por encima del hype. Asumimos que el proveedor de LLM aplicará rate-limit, el modelo será deprecado, y la salida estará mal parte del tiempo — y diseñamos cada sistema alrededor de eso.
Si has lanzado una feature de LLM y funciona "la mayoría del tiempo", ya sabes que el siguiente diez por ciento es la parte difícil. Ahí es donde entramos.
Las dos formas de proyecto
Forma uno — RAG sobre tus datos. Tienes un corpus (tickets de soporte, documentación, contratos, transcripciones, una base de conocimiento). Quieres un chat o search que responda preguntas desde ese corpus y rechace educadamente cuando no sabe. Entregamos el pipeline de indexación, la capa de retrieval, el prompt engineering, los evals, y la UI.
Forma dos — Agentes LLM en tu producto. Quieres un agente in-app que tome una instrucción del usuario y encadene llamadas a tools para cumplirla. Diseñamos la tool surface, escribimos los prompts, construimos los safety rails, e integramos con tu API existente. Hemos entregado agentes que agendan, redactan, analizan y enrutan — siempre con trazabilidad explícita de "qué hizo el agente y por qué".
El stack
Para RAG: Postgres con pgvector para corpora bajo 50M documentos, vector DBs dedicadas (Pinecone, Qdrant) al pasar esa línea. Chunking con overlap, retrieval híbrido semántico + keyword, reranker encima. LangChain o LlamaIndex cuando realmente encajan, Python plano cuando no.
Para agentes: Elegimos el modelo según el nivel de confianza que la tarea requiere. Modelos baratos para extracción no crítica, frontier para razonamiento, fine-tuned para casos estrechos de alto volumen. OpenAI, Anthropic y open-weights todos en nuestra rotación.
Para monitoreo: Trazas OpenTelemetry con prompts y tokens redactados, dashboards de coste-por-request y latencia p95/p99, y un pipeline de evals que corre en CI en cada cambio de prompt o modelo.
Cómo se ve "evaluación construida"
La mayoría de "proyectos de IA" terminan con una evaluación basada en vibes. Nos negamos a entregar eso.
En el día tres de cada engagement te pedimos cincuenta preguntas reales y las respuestas que un experto humano daría. Eso se convierte en el golden eval set. Cada cambio de prompt, cada cambio de modelo, cada ajuste de retrieval se re-puntúa automáticamente. Rastreamos precisión, recall, fidelidad, y coste — igual que un equipo de base de datos rastrea query plans.
Tú puedes re-ejecutar los evals. Te damos el script.
Cómo fijamos techos de coste
El coste LLM es ingeniería, no finanzas. Fijamos un techo por-request y mensual al inicio, después diseñamos hacia atrás:
- Cachear embeddings indefinidamente; cachear respuestas para consultas mayormente de lectura.
- Elegir el modelo más barato que pase el bar de evals — usualmente un tier por debajo de "frontier".
- Añadir fallback duro a un modelo más barato o local cuando se cruza el umbral de budget.
Hemos cortado facturas LLM en 60-80% en sistemas heredados sin regresión de calidad. El truco no es magia; es prestar atención.
Lo que no hacemos
- No entrenamos foundation models. Si tu proyecto necesita eso, necesitas un equipo de research, no nosotros.
- No prometemos números de calidad específicos antes de ver tus datos. Corremos un baseline de evals de una semana primero; todos presupuestan con datos reales.
- No entregamos agentes sin trazabilidad. Si un regulador pregunta "¿por qué el sistema hizo eso el 14 de marzo?", tendrás la respuesta.
Llévala de prototipo a producción.
Respondemos en un día laborable. MVP vibecoded, draft generado por IA, proyecto a medio terminar, o un producto funcionando que empieza a crujir — todo es bienvenido.
Iniciar un proyecto
