La guía de IA

Un blog sobre inteligencia artificial, generado 90% por inteligencia humana.

Detrás de escena: cómo genero imágenes para mi blog usando IA

En mi último artículo, me explayé sobre cuán importante es para mí que este blog esté escrito usando casi exclusivamente inteligencia humana. Pero también allí mencioné que me reservo un pequeño margen de uso de inteligencia artificial para ayudarme a potenciar mis facultades de contenidista.

Un aspecto importante de esa ayuda artificial es la creación de las imágenes que encabezan mis artículos. En vista del revuelo de esta última semana alrededor de la mejorada capacidad gráfica de GPT-4.o, me pareció interesante detallar mi proceso de generación de imágenes para este blog.


Antes de empezar: consideraciones éticas de esta práctica

Primero lo básico: ¿por qué usar inteligencia artificial para generar estas imágenes? La respuesta fácil es que carezco del talento o el dinero para generarlas por mi cuenta. Claro está, podría usar un banco de imágenes como lo hacía en la época previa a la explosión de la IA generativa, pero la estética de mis proyectos es algo de lo que soy muy celosa y que también me es muy importante.

De hecho, esa es la respuesta más detallada a la pregunta: para mí, la estética no es solo un aspecto visual; es parte de mi proceso creativo. Para motivarme e inspirarme a escribir, preciso que la idea cierre en todos los aspectos. Para este blog en particular, tenía una idea muy definida que no era posible materializar sin ayuda de la inteligencia artificial, al menos en esta etapa del proyecto donde, en lugar de generar ganancias, las consume.

Ahora, esto no quiere decir que me sean ajenos los muchos reclamos, en particular de artistas, sobre la generación de imágenes con estas herramientas. Como traductora y redactora, soy dolorosamente consciente de que las empresas que las desarrollan tienen poco cuidado por los derechos intelectuales de los trabajadores (por los derechos propios sí que tienen cuidado) cuya labor usan para instruir algoritmos que luego promoverán como alternativas más económicas a la labor humana. Incluso, aunque no tuviesen como objetivo final el reemplazo de estos trabajadores, es indiscutible que empresas como OpenAI obtienen un rédito al utilizar la labor de los artistas cuyas obras sustraen para entrenar modelos sin pedirles permiso, sin darles la oportunidad de negarse a que estas sean incluidas en los datos de entrenamiento y, por supuesto, sin pagarles un solo dólar (ni siquiera una fracción de dólar, como lo hace Spotify) por su aporte.

Tampoco se me escapa el alto costo ecológico que tiene el uso de estas herramientas, producto de las grandes cantidades de energía que requieren para funcionar con sus enormes granjas de servidores. A veces parece que la irrupción de la inteligencia artificial generativa ha borrado el arduo trabajo de concientización sobre el cambio climático y el impacto de nuestras huellas de carbono.

Sin embargo, aunque nos podría gustar que la cuestión de la ética alrededor de la IA fuera en blanco y negro, estamos ante una vasta escala de grises que incluye preguntas como:

  • ¿Qué tanta responsabilidad se debería poner sobre el consumidor final vs. las grandes empresas? (pregunta que ya nos hemos hecho, por ejemplo, en torno al consumo de plásticos descartables),
  • ¿se podría patentar un estilo artístico? ¿qué implicancias tendría?,
  • ¿es lo mismo que el plagio lo cometa una persona o un LLM?,
  • ¿qué tan relevante es la monetización o no de ese plagio? y muchísimas más.

Es una discusión que vale la pena, por eso me esfuerzo en mencionarla en varios de mis artículos, pero, a su vez, es una discusión larga que probablemente no tenga una única respuesta y que merecería una serie de artículos. Por esa razón, y para no demorar más la temática principal que concierne a este texto, es que me limito a reconocer el problema, sin tratarlo en detalle ni pretender encontrarle una solución a las apuradas, al menos por ahora.


Paso uno: la idea

No sorprenderá en lo más mínimo saber que, antes de poder crear una imagen con inteligencia artificial, es necesario saber qué imagen se quiere crear. Usualmente, la idea se desprende fácilmente de la temática del artículo, pero, como buenos humanos, a veces nos podemos encontrar frente a un bloqueo creativo y ahí entra en juego por primera vez la inteligencia artificial.

Ella nunca se bloquea. Podrá proporcionar pésimas ideas, pero no quedarse sin ellas. El primer paso de mi proceso, entonces, suele ser pedirle que genere ideas de imágenes (no imágenes en sí) para mi artículo, ya sea para desbloquearme, inspirarme o por si se le ocurre algo en lo que yo no he pensado. Ese prompt, usualmente, se ve algo así como

Estoy escribiendo un artículo sobre [tema], ¿puedes sugerirme ideas para la imagen principal siguiendo el estilo de mi blog?

o

Estoy trabajando en un artículo titulado [título] para mi blog. ¿Con qué imágenes sugieres que podría ilustrarlo?

Notarás que en estos prompts hablo de «mi blog» o incluso «el estilo de mi blog». Esto se debe a que cuento con un proyecto donde agrupo las conversaciones sobre esta iniciativa. Como vimos anteriormente, los proyectos permiten tener instrucciones generales para todas las conversaciones que engloban. En mi caso, incluyo el estilo de imagen que busco allí.

La instrucción que uso actualmente para crear mis imágenes1 es producto de varias idas y vueltas y la he ido refinando con la experiencia. No es un prompt final, ni espero que alguna vez lo sea: está en constante mejora. Por eso, cuando logro que ChatGPT genere una imagen con el estilo exacto que deseo, le pido ayuda a él mismo para analizar qué partes del prompt utilizado lo hicieron exitoso y luego alimento mi metaprompt con esas palabras clave.

Encaminadas las instrucciones globales y habiendo llegado a una idea final, puedo seguir adelante con mi proceso.

Paso dos: el prompt

Puede parecer confuso, cuando en el paso uno he hablado de prompts para obtener ideas y metaprompts de proyectos, que declare que el prompt es el segundo paso, pero es que no me refiero a «un» prompt genérico, sino a «el» prompt que resultará en la imagen final.

Una podría, por supuesto, tomar la idea generada en el paso uno, pegarla en el cuadro de consulta e indicarle a ChatGPT «genera una imagen para esta idea». Podría, pero no sería lo más eficiente.

No lo sería porque estaríamos gastando recursos en la generación de una imagen que, probablemente, no será exactamente lo que buscamos. Por eso, antes de que ChatGPT genere una imagen, tengo por costumbre pedirle que comparta conmigo el prompt «interno» que usará para generarla. Esto me permite refinar aún más la idea, antes de «invertir» en la generación de la imagen.

Usemos de ejemplo un artículo que publicaré en breve. En este caso, le al modelo pedí que me indique qué prompt usaría para crear una imagen para mi blog que incluya matrioskas (en este caso no fue necesario pedirle ideas de imágenes, ya que tenía una propia). La respuesta de ChatGPT fue la siguiente:

Aquí tienes el prompt propuesto, ajustado exactamente al estilo que solicitaste:

"An old-time engraving style illustration in grayscale, depicting a row of traditional Russian matryoshka dolls arranged from largest to smallest. The image is created with thick cross-hatching lines, simple forms, and minimal details. The dolls have gentle smiles and subtle floral patterns, without being overly intricate. The composition is horizontal, wider than tall, with no text included."2

Avísame si quieres algún ajuste antes de generar la imagen.

Si bien no es un mal prompt, antes de siquiera generar la imagen, ya pude notar algunos detalles que deseaba cambiar. Dado el contenido de mi artículo y lo que las matrioskas representan, quería ilustrar exactamente tres muñecas (el porqué será evidente una vez publicado el artículo). Además, sentía que el prompt no describía del todo bien el estilo que quiero y, por experiencias previas, sé que es necesario hacer aclaraciones como que la ilustración debe tener bastante espacio en blanco para obtener la estética que busco. Mi respuesta, entonces, fue la siguiente:

Sí, pero me gustaría que haya tres muñecas y recuerda que me gusta que haya bastante espacio en blanco, agrega eso al prompt.

Este pedido generó la siguiente respuesta por parte del modelo:

Perfecto, gracias por la aclaración. Aquí tienes el prompt final con tu preferencia por el espacio en blanco incorporada:

"An old-time engraving style illustration in grayscale, depicting three traditional Russian matryoshka dolls arranged from largest to smallest. The image is created with thick cross-hatching lines, simple forms, and minimal details. The dolls have gentle smiles and subtle floral patterns, without being overly intricate. The composition is horizontal, wider than tall, with generous empty white space around the figures. No text included.3"

¿Lo genero así?

Aún no convencida de que realmente estuviese comprendiendo mi idea, le hice una nueva aclaración:

Mmmm. No lo sé, creo que tu explicación del espacio en blanco no expresa del todo lo que quiero. No es que no quiero que haya un fondo, es más bien para la imagen en general, en línea con lo que dices de la simpleza. De hecho, sí me gustaría que haya algo de fondo.

En respuesta a esto, recibí un prompt que me pareció lo suficientemente bueno como para generar una primera imagen:

¡Perfecto, ahora entiendo mejor! Entonces querés que la imagen mantenga esa sensación de aire, de simplicidad visual, sin estar demasiado recargada, pero no completamente vacía de fondo. Algo que evoque un grabado tradicional con fondo sutil, que acompañe sin robar protagonismo.

Aquí va una versión refinada del prompt que refleja eso:

"An old-time engraving style illustration in grayscale, depicting three traditional Russian matryoshka dolls arranged from largest to smallest. The image is created with thick cross-hatching lines, simple forms, and restrained detail. The background features a subtle engraved texture or light shading, consistent with antique printmaking, adding depth without overwhelming the composition. The overall image has a clean and airy feel, with balanced use of white space. The layout is horizontal, wider than tall, with no text included."4

¿Querés que la genere con este texto?

Satisfecha, le indiqué a ChatGPT que creara la imagen y procedí al siguiente paso.

Paso tres: refinar la imagen

El prompt anterior parecía bastante bueno: era detallado e incluía todo lo que buscaba. Pero el resultado fue el siguiente:

No está del todo mal, pero tampoco era exactamente el estilo que suelo usar en mi blog, por lo que se lo hice saber al modelo:

El cross hatching se siente más como textura que como cross hatching, ¿no crees? ¿Cómo cambiarías el prompt para solucionar esto?

Notarás que, nuevamente, no le pedí que generara una nueva imagen, sino que le pedí que me mostrara el nuevo prompt. Hago esto para asegurarme de que ha entendido y no gastar recursos en generar otra imagen en vano. Además, quizás hayas notado otra técnica que me gusta usar mucho con estos modelos: no les digo exactamente lo que quiero, sino que les pido que lo razonen solos. Usualmente, esto hace que el modelo comprenda mejor mis cambios y genere mejores resultados.

Volviendo al ejemplo, ChatGPT, respondió lo siguiente:

Sí, tenés razón: el cross-hatching en esta imagen aparece más como una textura general que como un elemento de sombreado con trazos visibles y direccionales, que es lo que define realmente la técnica de grabado tradicional.

Para enfatizar el cross-hatching auténtico, podríamos ajustar el prompt así:

"An old-time engraving style illustration in grayscale, showing three traditional Russian matryoshka dolls arranged from largest to smallest. The image is made with clearly visible, thick cross-hatching lines used for shadows and depth, mimicking historical printmaking techniques5. Each doll has a serene expression and a simple floral design. The background includes light engraved-style shading and faint ground lines, maintaining a clean and airy composition with generous white space. The layout is horizontal, wider than tall, with no text included."

¿Querés que la genere con esta nueva versión?

Al aceptar este prompt, generó esta imagen:

Nuevamente, no era del todo el estilo que busco. Por esa razón, decidí proporcionarle dos imágenes que había generado en el pasado y que creo retratan muy bien la estética que busco. Mi respuesta, entonces, fue la que sigue:

Te mostraré6 unas imágenes que reflejan perfectamente el estilo que quiero, porque no es este. Este cross hatching es muy fino e irregular. Analiza las imágenes que te envío y dime qué encuentras. Cuéntame cómo modificarías el prompt para lograr un estilo similar.

La respuesta de ChatGPT a este prompt fue bastante detallada e interesante (podés expandir la sección de abajo si querés leerla) y finalmente logró una imagen que se adapta bastante a mi estética objetivo:

Ver respuesta de ChatGPT que resultó en esta imagen

🎯 Qué define el estilo de las imágenes que enviaste:

  1. Trazos gruesos, definidos y regulares:
    • Las líneas de sombreado son claramente visibles, con patrones rectos o cruzados, bien espaciados, que simulan grabado en madera o linograbado.
    • No hay sensación de “textura irregular” ni manchas, sino que todo se compone de líneas ordenadas y controladas.
  2. Contraste alto:
    • El fondo es mayormente claro, con uso estratégico de líneas negras para crear volumen.
    • Las sombras no son suaves ni difusas, sino construidas a partir de líneas netas, sin degradados.
  3. Simplicidad visual:
    • Aunque hay detalle, no es minucioso ni hiperrealista. Todo está al servicio de la legibilidad visual.
    • Las formas están bien delimitadas, sin ambigüedad, y la composición tiene aire.
  4. Composición tipo grabado editorial:
    • Parece una ilustración pensada para acompañar texto en un libro antiguo. Esto refuerza la sensación de antigüedad.

🛠 Cómo modificar el prompt para reflejar esto mejor:

Aquí tienes una nueva versión del prompt, ajustada para generar imágenes más similares a las que me enviaste:

«An engraving-style illustration in grayscale, showing three traditional Russian matryoshka dolls arranged from largest to smallest. The drawing should be made with bold, clearly visible, and evenly spaced cross-hatching lines, like traditional woodcut or linocut prints. Avoid fine textures or irregular patterns. The image should have high contrast, with clean white areas and solid black shadows built from structured linework. Keep the composition simple, spacious, and clean, like a vintage editorial illustration. The layout should be horizontal, wider than tall, and include no text.»


A partir de aquí, solo me quedaba refinar algunos detalles pequeños, como indicarle que le agregue un borde, la pase a escala de grises y otros pequeños ajustes que pronto verán en el resultado final.

A medida que he generado más imágenes dentro del proyecto y he seguido refinando mi prompt, el modelo se ha vuelto cada vez mejor en generar estas imágenes e incluso he logrado obtener imágenes publicables en el primer intento.

La última actualización de GPT-4.o7 afectó un poco estos resultados, pero rápidamente estoy viendo cómo vuelve a adaptarse a medida que la reentreno con las mismas técnicas.

Usada de forma adecuada, no cabe duda que es una herramienta muy poderosa que, para bien o para mal, cambiará el panorama en cuanto a generación de imágenes. ¿Ya la probaste? ¿Qué te pareció?


  1. Para los curiosos, esta es la parte de esa metaprompt que refiere a las imágenes:
    «Images for the blog should be created in an old-timey woodcut engraving style, in grayscale, with thick cross-hatching and not too detailed, meant to contrast with the modernity of the topic being written about. It should be simple, something that could’ve been printed in an old wood press, so they should have high contrast and prioritize white space. Unless otherwise specified, they should be in a landscape layout (ie, they should be wider than they are tall) and they should not include any text.» ↩︎
  2. En español: «Una ilustración en escala de grises en el estilo de un grabado antiguo que ilustre una fila de muñecas rusas tipo matrioskas ordenadas de mayor a menor tamaño. La imagen está creada con líneas de achurado gruesas, formas simples y detalles mínimos. Las muñecas tienen sonrisas amables y patrones florales sutiles, sin ser demasiado complejos. La composición es horizontal, más ancha que alta, y no incluye texto». ↩︎
  3. En español: «Una ilustración en escala de grises en el estilo de un grabado antiguo que ilustre tres muñecas rusas tipo matrioskas ordenadas de mayor a menor tamaño. La imagen está creada con líneas de achurado gruesas, formas simples y detalles mínimos. Las muñecas tienen sonrisas amables y patrones florales sutiles, sin ser demasiado complejos. La composición es horizontal, más ancha que alta, con una cantidad generosa de espacio en blanco alrededor de las figuras. No incluye texto». ↩︎
  4. «Una ilustración en escala de grises en el estilo de un grabado antiguo que ilustre tres muñecas rusas tipo matrioskas ordenadas de mayor a menor tamaño. La imagen está creada con líneas de achurado gruesas, formas simples y detalles limitados. El fondo tiene una textura grabado o sombreado suave sutil, consistente con estilos de impresión antiguos, sin saturar la composición. La imagen en general es aireada, con un uso equilibrado de espacio en blanco. La composición es horizontal, más ancha que alta, y no incluye texto». ↩︎
  5. A las variaciones de los prompts anteriores, esta vez ChatGPT hace el siguiente agregado: «La imagen está realizada con líneas de achurado gruesas y claramente visibles para generar sombras y profundidad, imitando técnicas de impresión históricas». ↩︎
  6. Junto a este mensaje, adjunté dos imágenes. ↩︎
  7. Antes delegaba la generación de imágenes a DALL-E, ahora lo hace el mismo modelo 4.o. ↩︎

Deja un comentario

¡Quiero más!

¿Te gustó este post? ¿Querés ser el primer humano en enterarte cuando se publique el próximo?