Los modelos de STABLE DIFFUSION son un tipo de técnica de generación de imágenes que funciona "eliminando el ruido" iterativamente de los datos en un espacio de representación latente y luego decodificando la representación en una imagen completa. Esto contrasta con otros métodos populares de síntesis de imágenes, como las redes generativas antagónicas (GAN) y la técnica autorregresiva utilizada por DALL-E. El modelo Stable Diffusion es creado por una colaboración entre ingenieros e investigadores de CompVis , Stability AI y LAION y lanzado bajo Creative ML OpenRAIL-M.licencia, lo que significa que se puede utilizar con fines comerciales y no comerciales. En esta nota de RUBIK MAGAZINE te contamos todo sobre STABLE DIFFUSION en el increíble mundo de la A.I.
¿Qué son los modelos de difusión estable?
Los modelos de difusión latente (LDM) son un tipo de técnica de generación de imágenes que funciona "eliminando el ruido" iterativamente de los datos en un espacio de representación latente y luego decodificando la representación en una imagen completa. Esto contrasta con otros métodos populares de síntesis de imágenes, como las redes generativas antagónicas (GAN) y la técnica autorregresiva utilizada por DALL-E. El modelo Stable Diffusion es creado por una colaboración entre ingenieros e investigadores de CompVis , Stability AI y LAION y lanzado bajo Creative ML OpenRAIL-M.licencia, lo que significa que se puede utilizar con fines comerciales y no comerciales. La publicación de este archivo es la culminación de muchas horas de esfuerzo colectivo para comprimir la información visual de la humanidad en unos pocos gigabytes. Además, el modelo también admite la transferencia de estilo de imagen a imagen, así como la ampliación y la generación de imágenes a partir de un boceto simple. También se incluye un clasificador de seguridad basado en IA, que comprende conceptos y otros factores en generaciones para eliminar resultados que el usuario del modelo puede no desear.
¿Dónde se pueden usar los modelos de difusión estable y por qué?
Stable Diffusion es un modelo de difusión latente que es capaz de generar imágenes detalladas a partir de descripciones de texto. También se puede utilizar para tareas como pintar, traducir texto a imagen e imagen a imagen.
Debido a su poderosa capacidad para generar imágenes basadas en diferentes tipos de indicaciones (texto, imagen, etc.), en realidad solo nuestra imaginación nos limita donde se puede usar esta herramienta. Puede acelerar o mejorar nuestra capacidad para crear contenido más atractivo para nuestros clientes o usuarios en general. Incluso si eres un creativo con un bloqueo creativo, puedes usar imágenes generadas para inspirarte y superar el estancamiento. Lo alentamos a hacer un arte único con el uso de modelos de difusión estable o primeros borradores para su viaje artístico (o cotidiano).
Los DATOS
Stable Diffusion se entrenó a partir de tres conjuntos de datos masivos recopilados por LAION , una organización sin fines de lucro cuyo tiempo de cómputo fue financiado en gran parte por el propietario de Stable Diffusion, Stability AI .
No pude encontrar ningún artículo que diga en qué modelo OpenAI ha entrenado DALL-E 2. Aunque dicen "cientos de millones de imágenes con subtítulos", todavía no dieron a conocer ninguna información sobre los conjuntos de datos utilizados. Por otro lado, el equipo de Stability AI ha sido muy honesto y abierto sobre cómo se entrenó su modelo. Junto con Stable Diffusion siendo de código abierto, eso podría explicar la enorme popularidad de este modelo, al mismo tiempo que lo hace accesible al público en general.
El modelo Stable Diffusion se entrenó con el conjunto de datos LAION Aesthetics , un subconjunto del conjunto de datos LAION 5B , que contiene 120 millones de pares de imagen-texto del conjunto completo que contiene casi 6 mil millones de pares de imagen-texto .
STABLE DIFFUSION CORE
Stable Diffusion funciona con Latent Diffusion , una técnica de síntesis de texto a imagen de vanguardia. Este método fue descrito en un artículo publicado por investigadores de IA en la Universidad Ludwig Maximilian de Munich titulado “ Síntesis de imágenes de alta resolución con modelos de difusión latente”. ”
En pocas palabras, las difusiones latentes son modelos de difusión (DM) que logran resultados de síntesis de última generación en datos de imagen y más al desglosar el proceso de creación de una imagen en una serie de aplicaciones de codificadores automáticos de eliminación de ruido .
Stability AI coloca modelos de difusión en el espacio latente de potentes codificadores automáticos pre-entrenados para que puedan entrenarse con recursos informáticos limitados sin perder su calidad o flexibilidad.
El modelo de difusión latente ( LDM ; Rombach & Blattmann, et al. 2022 ) ejecuta el proceso de difusión en el espacio latente en lugar del espacio de píxeles, lo que hace que el costo de entrenamiento sea más bajo y la velocidad de inferencia más rápida. Está motivado por la observación de que la mayoría de los fragmentos de una imagen contribuyen a los detalles de percepción y la composición semántica y conceptual aún permanece después de una compresión agresiva. LDM descompone libremente la compresión perceptual y la compresión semántica con aprendizaje de modelado generativo al eliminar primero la redundancia a nivel de píxel con codificador automático y luego manipular/generar conceptos semánticos con proceso de difusión en latente aprendido.
Codificador automático variacional
Se realiza utilizando una técnica llamada autocodificador variacional . Sí, eso es precisamente lo que son los archivos VAE, pero lo dejaré muy claro más adelante. La red neuronal Variational Autoencoder (VAE) tiene dos partes: (1) un codificador y (2) un decodificador. El codificador comprime una imagen a una representación de menor dimensión en el espacio latente. El decodificador restaura la imagen del espacio latente.
El espacio latente del modelo Stable Diffusion es 4x64x64, 48 veces más pequeño que el espacio de píxeles de la imagen. Todas las difusiones directas e inversas de las que hablamos se realizan en realidad en el espacio latente. Entonces, durante el entrenamiento, en lugar de generar una imagen ruidosa, genera un tensor aleatorio en el espacio latente (ruido latente). En lugar de corromper una imagen con ruido, corrompe la representación de la imagen en el espacio latente con el ruido latente. La razón para hacerlo es que es mucho más rápido ya que el espacio latente es más pequeño.
Resolución de imagen
La resolución de la imagen se refleja en el tamaño del tensor de la imagen latente. El tamaño de la imagen latente es 4x64x64 solo para imágenes de 512×512. Es 4x96x64 para una imagen de retrato de 768×512. Es por eso que lleva más tiempo y más VRAM generar una imagen más grande. Dado que Stable Diffusion v1 está ajustado en imágenes de 512 × 512, generar imágenes de más de 512 × 512 podría generar objetos duplicados, por ejemplo, las infames dos cabezas . Si es necesario, mantenga al menos un lado en 512 píxeles y use un escalador de IA para obtener una resolución más alta.
¿Por qué es posible el espacio latente?
Quizás se pregunte por qué el VAE puede comprimir una imagen en un espacio latente mucho más pequeño sin perder información. La razón es que, como era de esperar, las imágenes naturales no son aleatorias. Tienen una alta regularidad: una cara sigue una relación espacial específica entre los ojos, la nariz, las mejillas y la boca. Un perro tiene 4 patas y tiene una forma particular. En otras palabras, la alta dimensionalidad de las imágenes es un objeto. Las imágenes naturales se pueden comprimir fácilmente en un espacio latente mucho más pequeño sin perder ninguna información. Esto se llama la hipótesis múltiple en el aprendizaje automático.
Diferencia de Resultados
La principal característica de Stable Diffusion es la de permitirte crear imágenes a partir de texto, el denominado text to image. De hecho, es el proceso que te hemos descrito más arriba, y posiblemente la razón por la que quieras utilizar esta inteligencia artificial.
Sin embargo, además de esto también tiene opciones para crear imágenes a partir de otras imágenes, editándolas o añadiéndole elementos que le pidas. Esto es lo que se llama Image to Image. También tiene otras opciones, como añadir o borrar elementos de una imagen seleccionando la zona y eligiendo qué quieres poner o quitar.
Stable Diffusion funciona a través de los denominados prompt, que son los comandos que le tienes que escribir mediante un texto para hacerle una petición. La verdadera magia, lo que hace que los resultados que obtengas sean buenos o malos, dependen de tu habilidad a la hora de escribir estos comandos.