← Cursos
🎓
IntermediocourseAcceso por bootcamp
Evaluation Frameworks Guide
64
Lecciones
8
Módulos
🎓
Acceso por bootcamp
Lo que aprenderás
✓Entender por qué la evaluación es el gap más crítico en AI Engineering y adoptar evaluation-driven development
✓Dominar la taxonomía de métricas: reference-based (BLEU, ROUGE, BERTScore), reference-free, semánticas y custom
✓Diseñar golden datasets profesionales con estrategias de annotation, synthetic data y versionado
✓Evaluar chatbots con métricas de response quality, safety checks, evaluación multi-turn y TruLens
✓Evaluar pipelines RAG con RAGAS: faithfulness, answer relevancy, context precision y recall
✓Evaluar agentes de AI con trajectory evaluation, tool call accuracy y métricas de task completion
✓Implementar LLM-as-judge con prompts calibrados, mitigación de sesgo, pairwise comparison y multi-judge consensus
✓Construir pipelines de evaluación en producción con CI/CD gates, monitoring continuo, regression detection y alerting
¿Para quién es?
- •AI Engineers que construyen sistemas de chat, RAG o agents y necesitan medir su calidad de forma rigurosa
- •Developers que deployean sistemas de AI a producción sin saber si realmente funcionan bien
- •Ingenieros que necesitan implementar evaluación en el pipeline CI/CD de su empresa
- •Equipos en transición de "evaluación por vibes" a métricas de calidad automatizadas y data-driven
- •Profesionales que quieren entender LLM-as-judge, RAGAS y TruLens para uso en producción
Requisitos
- •Completar la Guía de Advanced RAG Techniques (#8) o experiencia construyendo pipelines RAG
- •Completar la Guía de LangChain & LangGraph (#9) o experiencia equivalente con el framework
- •Completar la Guía de Building AI Agents (#11) o experiencia construyendo agentes con tool use
- •Python intermedio (funciones, clases, async, Pydantic básico)
- •Experiencia con al menos un sistema de AI en desarrollo o producción
- •Al menos una API key de proveedor LLM (OpenAI recomendado)
- •Python 3.11+ instalado
Contenido del curso
1Módulo 1: ¿Por Qué Evaluar Sistemas de AI? — Guía para el Creador8 lecciones
2Módulo 2: Taxonomía de Métricas — Guía para el Creador8 lecciones
3Módulo 3: Golden Datasets y Test Suites — Guía para el Creador8 lecciones
4Módulo 4: Evaluación de Chat y Conversaciones — Guía para el Creador8 lecciones
5Módulo 5: Evaluación de RAG con RAGAS — Guía para el Creador8 lecciones
6Módulo 6: Evaluación de Agents — Guía para el Creador8 lecciones
7Módulo 7: LLM-as-Judge y Evaluación Automatizada — Guía para el Creador8 lecciones
8Módulo 8: Pipelines de Evaluación en Producción — Guía para el Creador8 lecciones
Reseñas
Lo que dicen los estudiantes
Inicia sesión para dejar una reseña.
Aún no hay reseñas aprobadas.
¡Sé el primero en compartir tu experiencia!