← Cursos
🎓
IntermediocourseAcceso por bootcamp

Evaluation Frameworks Guide

64

Lecciones

8

Módulos

🎓

Acceso por bootcamp

Lo que aprenderás

Entender por qué la evaluación es el gap más crítico en AI Engineering y adoptar evaluation-driven development
Dominar la taxonomía de métricas: reference-based (BLEU, ROUGE, BERTScore), reference-free, semánticas y custom
Diseñar golden datasets profesionales con estrategias de annotation, synthetic data y versionado
Evaluar chatbots con métricas de response quality, safety checks, evaluación multi-turn y TruLens
Evaluar pipelines RAG con RAGAS: faithfulness, answer relevancy, context precision y recall
Evaluar agentes de AI con trajectory evaluation, tool call accuracy y métricas de task completion
Implementar LLM-as-judge con prompts calibrados, mitigación de sesgo, pairwise comparison y multi-judge consensus
Construir pipelines de evaluación en producción con CI/CD gates, monitoring continuo, regression detection y alerting

¿Para quién es?

  • AI Engineers que construyen sistemas de chat, RAG o agents y necesitan medir su calidad de forma rigurosa
  • Developers que deployean sistemas de AI a producción sin saber si realmente funcionan bien
  • Ingenieros que necesitan implementar evaluación en el pipeline CI/CD de su empresa
  • Equipos en transición de "evaluación por vibes" a métricas de calidad automatizadas y data-driven
  • Profesionales que quieren entender LLM-as-judge, RAGAS y TruLens para uso en producción

Requisitos

  • Completar la Guía de Advanced RAG Techniques (#8) o experiencia construyendo pipelines RAG
  • Completar la Guía de LangChain & LangGraph (#9) o experiencia equivalente con el framework
  • Completar la Guía de Building AI Agents (#11) o experiencia construyendo agentes con tool use
  • Python intermedio (funciones, clases, async, Pydantic básico)
  • Experiencia con al menos un sistema de AI en desarrollo o producción
  • Al menos una API key de proveedor LLM (OpenAI recomendado)
  • Python 3.11+ instalado

Contenido del curso

1Módulo 1: ¿Por Qué Evaluar Sistemas de AI? — Guía para el Creador8 lecciones
2Módulo 2: Taxonomía de Métricas — Guía para el Creador8 lecciones
3Módulo 3: Golden Datasets y Test Suites — Guía para el Creador8 lecciones
4Módulo 4: Evaluación de Chat y Conversaciones — Guía para el Creador8 lecciones
5Módulo 5: Evaluación de RAG con RAGAS — Guía para el Creador8 lecciones
6Módulo 6: Evaluación de Agents — Guía para el Creador8 lecciones
7Módulo 7: LLM-as-Judge y Evaluación Automatizada — Guía para el Creador8 lecciones
8Módulo 8: Pipelines de Evaluación en Producción — Guía para el Creador8 lecciones
Reseñas

Lo que dicen los estudiantes

Inicia sesión para dejar una reseña.

Aún no hay reseñas aprobadas.

¡Sé el primero en compartir tu experiencia!