← Cursos
🎓
IntermediocourseAcceso por bootcamp
AI Multimodal Guide
64
Lecciones
8
Módulos
🎓
Acceso por bootcamp
Lo que aprenderás
✓Entender el landscape multimodal (vision, audio, combinaciones)
✓Usar GPT-4 Vision, Claude 3 y Gemini para análisis de imágenes
✓Procesar documentos (PDFs, imágenes) con OCR + LLM
✓Generar imágenes con DALL-E e integrar Stable Diffusion
✓Transcribir con Whisper y sintetizar voz con TTS
✓Construir RAG multimodal (texto + imágenes)
✓Aplicar casos de uso reales: Q&A documental, análisis de video
✓Implementar un analizador documental multimodal completo
¿Para quién es?
- •AI Engineers que necesitan integrar visión, audio y documentos en sus sistemas
- •Python developers construyendo aplicaciones con múltiples modalidades
- •Backend engineers integrando GPT-4 Vision, Whisper, DALL-E
- •Desarrolladores que preparan sistemas de análisis documental
- •Cualquier persona que quiera dominar IA multimodal en producción
Requisitos
- •Python intermedio (funciones, clases, manejo de archivos)
- •Experiencia con APIs de LLMs (OpenAI, Anthropic o similar)
- •Familiaridad con REST APIs y JSON
- •API keys: OpenAI (recomendado), Anthropic (opcional), Google (opcional)
- •Python 3.11+ instalado
Contenido del curso
1Módulo 1: Introducción a IA Multimodal8 lecciones
2Módulo 2: Vision + LLMs8 lecciones
3Módulo 3: Comprensión de Documentos8 lecciones
4Módulo 4: Generación de Imágenes8 lecciones
5Módulo 5: Procesamiento de Audio8 lecciones
6Módulo 6: RAG Multimodal8 lecciones
7Módulo 7: Casos de Uso8 lecciones
8Módulo 8: Document Analyzer Multimodal8 lecciones
Reseñas
Lo que dicen los estudiantes
Inicia sesión para dejar una reseña.
Aún no hay reseñas aprobadas.
¡Sé el primero en compartir tu experiencia!