Houdrik

Integraciones IA

RAG sobre tus datos y agentes LLM que funcionan en producción. Construimos features de IA como construirías cualquier otro feature de backend — medidos, observables, reversibles.

Qué es esto

Un equipo que construye features de IA que sobreviven al tráfico del lunes por la mañana. Elegimos infraestructura aburrida y evaluación agresiva por encima del hype. Asumimos que el proveedor de LLM aplicará rate-limit, el modelo será deprecado, y la salida estará mal parte del tiempo — y diseñamos cada sistema alrededor de eso.

Si has lanzado una feature de LLM y funciona "la mayoría del tiempo", ya sabes que el siguiente diez por ciento es la parte difícil. Ahí es donde entramos.

Las dos formas de proyecto

Forma uno — RAG sobre tus datos. Tienes un corpus (tickets de soporte, documentación, contratos, transcripciones, una base de conocimiento). Quieres un chat o search que responda preguntas desde ese corpus y rechace educadamente cuando no sabe. Entregamos el pipeline de indexación, la capa de retrieval, el prompt engineering, los evals, y la UI.

Forma dos — Agentes LLM en tu producto. Quieres un agente in-app que tome una instrucción del usuario y encadene llamadas a tools para cumplirla. Diseñamos la tool surface, escribimos los prompts, construimos los safety rails, e integramos con tu API existente. Hemos entregado agentes que agendan, redactan, analizan y enrutan — siempre con trazabilidad explícita de "qué hizo el agente y por qué".

El stack

Para RAG: Postgres con pgvector para corpora bajo 50M documentos, vector DBs dedicadas (Pinecone, Qdrant) al pasar esa línea. Chunking con overlap, retrieval híbrido semántico + keyword, reranker encima. LangChain o LlamaIndex cuando realmente encajan, Python plano cuando no.

Para agentes: Elegimos el modelo según el nivel de confianza que la tarea requiere. Modelos baratos para extracción no crítica, frontier para razonamiento, fine-tuned para casos estrechos de alto volumen. OpenAI, Anthropic y open-weights todos en nuestra rotación.

Para monitoreo: Trazas OpenTelemetry con prompts y tokens redactados, dashboards de coste-por-request y latencia p95/p99, y un pipeline de evals que corre en CI en cada cambio de prompt o modelo.

Cómo se ve "evaluación construida"

La mayoría de "proyectos de IA" terminan con una evaluación basada en vibes. Nos negamos a entregar eso.

En el día tres de cada engagement te pedimos cincuenta preguntas reales y las respuestas que un experto humano daría. Eso se convierte en el golden eval set. Cada cambio de prompt, cada cambio de modelo, cada ajuste de retrieval se re-puntúa automáticamente. Rastreamos precisión, recall, fidelidad, y coste — igual que un equipo de base de datos rastrea query plans.

Tú puedes re-ejecutar los evals. Te damos el script.

Cómo fijamos techos de coste

El coste LLM es ingeniería, no finanzas. Fijamos un techo por-request y mensual al inicio, después diseñamos hacia atrás:

  • Cachear embeddings indefinidamente; cachear respuestas para consultas mayormente de lectura.
  • Elegir el modelo más barato que pase el bar de evals — usualmente un tier por debajo de "frontier".
  • Añadir fallback duro a un modelo más barato o local cuando se cruza el umbral de budget.

Hemos cortado facturas LLM en 60-80% en sistemas heredados sin regresión de calidad. El truco no es magia; es prestar atención.

Lo que no hacemos

  • No entrenamos foundation models. Si tu proyecto necesita eso, necesitas un equipo de research, no nosotros.
  • No prometemos números de calidad específicos antes de ver tus datos. Corremos un baseline de evals de una semana primero; todos presupuestan con datos reales.
  • No entregamos agentes sin trazabilidad. Si un regulador pregunta "¿por qué el sistema hizo eso el 14 de marzo?", tendrás la respuesta.
¿Tienes una app que necesita durar?

Llévala de prototipo a producción.

Respondemos en un día laborable. MVP vibecoded, draft generado por IA, proyecto a medio terminar, o un producto funcionando que empieza a crujir — todo es bienvenido.

Iniciar un proyecto