Evaluation Frameworks Guide

Lecciones

Módulos

🎓

Acceso por bootcamp

Lo que aprenderás

✓Entender por qué la evaluación es el gap más crítico en AI Engineering y adoptar evaluation-driven development

✓Dominar la taxonomía de métricas: reference-based (BLEU, ROUGE, BERTScore), reference-free, semánticas y custom

✓Diseñar golden datasets profesionales con estrategias de annotation, synthetic data y versionado

✓Evaluar chatbots con métricas de response quality, safety checks, evaluación multi-turn y TruLens

✓Evaluar pipelines RAG con RAGAS: faithfulness, answer relevancy, context precision y recall

✓Evaluar agentes de AI con trajectory evaluation, tool call accuracy y métricas de task completion

✓Implementar LLM-as-judge con prompts calibrados, mitigación de sesgo, pairwise comparison y multi-judge consensus

✓Construir pipelines de evaluación en producción con CI/CD gates, monitoring continuo, regression detection y alerting

•AI Engineers que construyen sistemas de chat, RAG o agents y necesitan medir su calidad de forma rigurosa
•Developers que deployean sistemas de AI a producción sin saber si realmente funcionan bien
•Ingenieros que necesitan implementar evaluación en el pipeline CI/CD de su empresa
•Equipos en transición de "evaluación por vibes" a métricas de calidad automatizadas y data-driven
•Profesionales que quieren entender LLM-as-judge, RAGAS y TruLens para uso en producción

•Completar la Guía de Advanced RAG Techniques (#8) o experiencia construyendo pipelines RAG
•Completar la Guía de LangChain & LangGraph (#9) o experiencia equivalente con el framework
•Completar la Guía de Building AI Agents (#11) o experiencia construyendo agentes con tool use
•Python intermedio (funciones, clases, async, Pydantic básico)
•Experiencia con al menos un sistema de AI en desarrollo o producción
•Al menos una API key de proveedor LLM (OpenAI recomendado)
•Python 3.11+ instalado

1Módulo 1: ¿Por Qué Evaluar Sistemas de AI? — Guía para el Creador8 lecciones

2Módulo 2: Taxonomía de Métricas — Guía para el Creador8 lecciones

3Módulo 3: Golden Datasets y Test Suites — Guía para el Creador8 lecciones

4Módulo 4: Evaluación de Chat y Conversaciones — Guía para el Creador8 lecciones

5Módulo 5: Evaluación de RAG con RAGAS — Guía para el Creador8 lecciones

6Módulo 6: Evaluación de Agents — Guía para el Creador8 lecciones

7Módulo 7: LLM-as-Judge y Evaluación Automatizada — Guía para el Creador8 lecciones

8Módulo 8: Pipelines de Evaluación en Producción — Guía para el Creador8 lecciones

Reseñas

Inicia sesión para dejar una reseña.

Aún no hay reseñas aprobadas.

¡Sé el primero en compartir tu experiencia!