Integraciones IA

RAG sobre tus datos y agentes LLM que funcionan en producción. Construimos features de IA como construirías cualquier otro feature de backend — medidos, observables, reversibles.

Iniciar este proyecto Ver trabajos similares

Qué es esto

Un equipo que construye features de IA que sobreviven al tráfico del lunes por la mañana. Elegimos infraestructura aburrida y evaluación agresiva por encima del hype. Asumimos que el proveedor de LLM aplicará rate-limit, el modelo será deprecado, y la salida estará mal parte del tiempo — y diseñamos cada sistema alrededor de eso.

Si has lanzado una feature de LLM y funciona "la mayoría del tiempo", ya sabes que el siguiente diez por ciento es la parte difícil. Ahí es donde entramos.

Las dos formas de proyecto

Forma uno — RAG sobre tus datos. Tienes un corpus (tickets de soporte, documentación, contratos, transcripciones, una base de conocimiento). Quieres un chat o search que responda preguntas desde ese corpus y rechace educadamente cuando no sabe. Entregamos el pipeline de indexación, la capa de retrieval, el prompt engineering, los evals, y la UI.

Forma dos — Agentes LLM en tu producto. Quieres un agente in-app que tome una instrucción del usuario y encadene llamadas a tools para cumplirla. Diseñamos la tool surface, escribimos los prompts, construimos los safety rails, e integramos con tu API existente. Hemos entregado agentes que agendan, redactan, analizan y enrutan — siempre con trazabilidad explícita de "qué hizo el agente y por qué".

El stack

Para RAG: Postgres con pgvector para corpora bajo 50M documentos, vector DBs dedicadas (Pinecone, Qdrant) al pasar esa línea. Chunking con overlap, retrieval híbrido semántico + keyword, reranker encima. LangChain o LlamaIndex cuando realmente encajan, Python plano cuando no.

Para agentes: Elegimos el modelo según el nivel de confianza que la tarea requiere. Modelos baratos para extracción no crítica, frontier para razonamiento, fine-tuned para casos estrechos de alto volumen. OpenAI, Anthropic y open-weights todos en nuestra rotación.

Para monitoreo: Trazas OpenTelemetry con prompts y tokens redactados, dashboards de coste-por-request y latencia p95/p99, y un pipeline de evals que corre en CI en cada cambio de prompt o modelo.

Cómo se ve "evaluación construida"

La mayoría de "proyectos de IA" terminan con una evaluación basada en vibes. Nos negamos a entregar eso.

En el día tres de cada engagement te pedimos cincuenta preguntas reales y las respuestas que un experto humano daría. Eso se convierte en el golden eval set. Cada cambio de prompt, cada cambio de modelo, cada ajuste de retrieval se re-puntúa automáticamente. Rastreamos precisión, recall, fidelidad, y coste — igual que un equipo de base de datos rastrea query plans.

Tú puedes re-ejecutar los evals. Te damos el script.

Cómo fijamos techos de coste

El coste LLM es ingeniería, no finanzas. Fijamos un techo por-request y mensual al inicio, después diseñamos hacia atrás:

Cachear embeddings indefinidamente; cachear respuestas para consultas mayormente de lectura.
Elegir el modelo más barato que pase el bar de evals — usualmente un tier por debajo de "frontier".
Añadir fallback duro a un modelo más barato o local cuando se cruza el umbral de budget.

Hemos cortado facturas LLM en 60-80% en sistemas heredados sin regresión de calidad. El truco no es magia; es prestar atención.

Lo que no hacemos

No entrenamos foundation models. Si tu proyecto necesita eso, necesitas un equipo de research, no nosotros.
No prometemos números de calidad específicos antes de ver tus datos. Corremos un baseline de evals de una semana primero; todos presupuestan con datos reales.
No entregamos agentes sin trazabilidad. Si un regulador pregunta "¿por qué el sistema hizo eso el 14 de marzo?", tendrás la respuesta.

¿Tienes una app que necesita durar?

Llévala de prototipo a producción.

Respondemos en un día laborable. MVP vibecoded, draft generado por IA, proyecto a medio terminar, o un producto funcionando que empieza a crujir — todo es bienvenido.

Iniciar un proyecto