← Cursos
🎓
IntermediocourseAcceso por bootcamp

AI Multimodal Guide

64

Lecciones

8

Módulos

🎓

Acceso por bootcamp

Lo que aprenderás

Entender el landscape multimodal (vision, audio, combinaciones)
Usar GPT-4 Vision, Claude 3 y Gemini para análisis de imágenes
Procesar documentos (PDFs, imágenes) con OCR + LLM
Generar imágenes con DALL-E e integrar Stable Diffusion
Transcribir con Whisper y sintetizar voz con TTS
Construir RAG multimodal (texto + imágenes)
Aplicar casos de uso reales: Q&A documental, análisis de video
Implementar un analizador documental multimodal completo

¿Para quién es?

  • AI Engineers que necesitan integrar visión, audio y documentos en sus sistemas
  • Python developers construyendo aplicaciones con múltiples modalidades
  • Backend engineers integrando GPT-4 Vision, Whisper, DALL-E
  • Desarrolladores que preparan sistemas de análisis documental
  • Cualquier persona que quiera dominar IA multimodal en producción

Requisitos

  • Python intermedio (funciones, clases, manejo de archivos)
  • Experiencia con APIs de LLMs (OpenAI, Anthropic o similar)
  • Familiaridad con REST APIs y JSON
  • API keys: OpenAI (recomendado), Anthropic (opcional), Google (opcional)
  • Python 3.11+ instalado

Contenido del curso

1Módulo 1: Introducción a IA Multimodal8 lecciones
2Módulo 2: Vision + LLMs8 lecciones
3Módulo 3: Comprensión de Documentos8 lecciones
4Módulo 4: Generación de Imágenes8 lecciones
5Módulo 5: Procesamiento de Audio8 lecciones
6Módulo 6: RAG Multimodal8 lecciones
7Módulo 7: Casos de Uso8 lecciones
8Módulo 8: Document Analyzer Multimodal8 lecciones
Reseñas

Lo que dicen los estudiantes

Inicia sesión para dejar una reseña.

Aún no hay reseñas aprobadas.

¡Sé el primero en compartir tu experiencia!