¿Qué es DALL·E 2?

DALL·E 2 es un programa de inteligencia artificial que crea imágenes a partir de descripciones textuales, revelado el jueves por OpenAI, una empresa de investigación.

Utiliza una versión de entrenamiento de 12 mil millones de parámetros del modelo de transformador GPT-3 para interpretar las entradas de lenguaje natural y generar las imágenes correspondientes. Por ejemplo, cuando se le proporcionó la oración 'una foto en blanco y negro de un perro pequeño', produjo una imagen en blanco y negro de un chihuahua correctamente representada.

El sistema no es perfecto: a veces produce imágenes que son difíciles de interpretar o completamente fuera de lugar. Por ejemplo, cuando se le pidió que generara una imagen de 'una persona montando un monociclo en la cuerda floja sobre un volcán', produjo una imagen (hermosa, en mi opinión) pero completamente diferente de una puesta de sol sobre el agua con una pequeña figura en primer plano. .

Aún así, los resultados son impresionantes, y OpenAI dice que DALL·E 2 'es el primer modelo de IA que genera imágenes a partir de descripciones textuales que pueden rivalizar con la calidad de los artistas humanos profesionales'.

El sistema se entrenó en un conjunto de datos de pares de texto e imagen, que consta de aproximadamente 1,3 millones de imágenes y subtítulos de Internet que fueron recopilados y seleccionados por OpenAI. Luego, los datos de entrenamiento se usaron para ajustar el modelo GPT-3 para que pudiera generar imágenes a partir de descripciones textuales.

OpenAI dice que el sistema puede generar imágenes de 'alta calidad' a partir de una amplia gama de descripciones textuales, incluidas aquellas que son abstractas, concretas o incluso poéticas.

Además del ejemplo de Chihuahua, otros ejemplos de imágenes producidas por DALL·E 2 incluyen un retrato correctamente representado de Adolf Hitler, una imagen de un dragón hecha con vegetales y una imagen de la Mona Lisa hecha con tostadas.

El sistema también puede generar imágenes de cosas que no existen, como un 'floof' (un animal inventado) o un 'tulpa' (una forma de pensamiento).

En general, los resultados son impresionantes y OpenAI dice que el sistema 'abre nuevas posibilidades para generar imágenes a partir de descripciones textuales'.

DESDE EL 2 Este Sistema CLIP convierte la información de texto en información visual. Este es un paradigma de codificador-decodificador, lo que significa que cuando se proporciona texto de entrada, primero se convierte en entrada de máquina, luego lo procesa el sistema y finalmente pasa al decodificador, que convierte los datos codificados en una imagen.

¿Qué es DALL E 2?

¿Qué es DALL·E 2?

Esta es la última generación de DALL·E, un modelo de lenguaje generativo que usa frases para crear efectos visuales completamente nuevos. El DALL E 2 es un modelo enorme de 3,5 V, aunque no tan grande como el GPT-3. Curiosamente, también es más ligero que su predecesor (12B). En términos de alineación de descripción y fotorrealismo, DALL·E 2 es un 70 % mejor que DALL·E 2 a pesar de su mayor tamaño.

DALL.E 2- explicación para principiantes con ejemplos

Específicamente, DALL·E 2 es un modelo de síntesis de imágenes de texto condicional jerárquico que combina el aprendizaje profundo para el procesamiento del lenguaje natural con la visión artificial para la generación de imágenes. Su objetivo es entrenar dos modelos, y el conjunto de entrenamiento consta de imágenes y descripciones emparejadas. El primero es un a priori que, dado un título escrito, se puede entrenar para generar una imagen CLIP incrustada. Luego tenemos un decodificador que, al incrustar una imagen CLIP (y un título, si está presente), puede generar una imagen entrenada.

DALLE 2 se entrena con cientos de millones de fotos con subtítulos de Internet, y algunas de esas imágenes se eliminan y se reorganizan para cambiar lo que aprende el modelo. Recupera múltiples opciones de imagen. Archivos adjuntos CLIP y luego usarlo descifrador pasar por cada uno de ellos. Luego crea una combinación interesante de toda esa información dada la entrada del usuario.

Ejemplo DALL ES 2

Hagamos un pequeño juego para entender DALL·E. Vamos a dividirlo en los siguientes tres pasos.

Imagina arcoíris, nubes y unicornios volando en el cielo azul. Imagina cómo podría ser una imagen en tu imaginación. Las personas son lo más cercano que tenemos al análogo perfecto de una imagen incrustada, y la imagen que acaba de aparecer en tu cabeza es un ejemplo perfecto de eso. Solo puede adivinar sobre el producto final, pero tiene una buena idea de lo que debe incluirse. El modelo a priori lleva al lector de las palabras de una frase a una escena en su imaginación.
Ahora puedes empezar a dibujar. Lo que hace unCLIP es convertir tu imagen mental en un boceto real. Ahora puedes recrear con precisión otro personaje de la misma descripción, con las mismas estadísticas básicas, pero con un estilo visual completamente nuevo. DALL·E 2 también puede generar imágenes únicas a partir de una imagen existente incrustada de esta manera.
Presta atención al boceto que hiciste. Esto es lo que sucede cuando esbozas la descripción de 'un unicornio en medio de las nubes, y un arcoíris se eleva contra el cielo'. Ahora examine la imagen y el texto para determinar qué ilustra mejor al otro (sol, casa, árbol, etc.) y qué ilustra mejor el tema, el estilo, los colores, etc. Lo que hace CLIP es codificar características. texto e imágenes.

Ahora que sabemos qué es DALL-E, pasemos a la siguiente sección y comprendamos sus características.

Consejo: Cómo crear imágenes realistas con el servicio DALL-E-2 AI

Características DALL E 2

A continuación se muestran las especificaciones de DALL·E 2.

variaciones
Colorante
Diferencias de texto

Hablemos de ellos en detalle.

como hacer tarjetas de visita en word 2010

1] Variaciones

DALL·E 2 va más allá de la simple traducción de una frase a una imagen. OpenAI puede experimentar con el proceso generativo, produciendo diferentes resultados para una firma determinada gracias a las robustas incrustaciones de CLIP. Lo que CLIP 've' en su 'mente' es lo que considera importante desde la entrada (permanece igual para todas las imágenes) y lo que se puede reemplazar (que cambia para diferentes imágenes). Siempre que sea posible, DALL·E 2 conservará tanto la 'información significativa... como los aspectos estéticos'.

2] Colorear

DALL·E 2 puede modificar fotos existentes con relleno automático. En el siguiente ejemplo, la imagen de la izquierda es la imagen original, y las fotos del centro y de la derecha tienen el elemento dibujado en diferentes lugares. DALL·E 2 combina un elemento adicional con el estilo de imagen. También actualiza texturas y reflejos para reflejar el nuevo elemento.

Leer : ¿Qué puedes hacer con ChatGPT?

3] Diferencias de texto

DALL·E 2 convierte imágenes utilizando diferencias de texto. DALL·E 2 también tiene capacidades de interpolación avanzadas que le permiten modificar objetos. Un usuario de Twitter pudo 'desmodificar' su iPhone. twitter.com para comprobar que funciona.

Si te gustan estas características, todo lo que tienes que hacer es ir a openai.com y luego registrarse. Puede crear una nueva cuenta o usar sus cuentas existentes de Microsoft o Google para registrarse. Una vez que hagas eso, obtendrás algunos créditos gratis, si quieres más, tienes que pagar por ello.

Estas son algunas de las características de DALL·E 2, tiene muchos casos de uso excelentes, sin embargo, siempre se recomienda no confiar demasiado en las herramientas de IA. Después de todo, no son más que herramientas que se utilizan para hacer el trabajo, nunca pueden reemplazar la inteligencia emocional de una persona.

Lea también: Las mejores aplicaciones, software y sitios web de Deepfake.