Finalmente voltei a reconfigurar um setup de gerador de imagens estilo Dall-e ou ...

Finalmente voltei a reconfigurar um setup de gerador de imagens estilo Dall-e ou Midjourney, mas que roda localmente no meu PC. Tenho uma RTX 4090 pra isso mas roda com outras GPUs também, o lance é sempre ter o máximo de VRAM quanto possível.

Mas é um saco bagunçar a máquina com um tanto de venv de python e tudo mais. O ideal é usar Docker. Começa instalando o NVIDIA Toolkit pra Docker igual este tutorial:

https://docs.nvidia.com/datacenter/cloud-native/container-toolkit/latest/install-guide.html

Com isso Docker tem acesso a GPU agora. Daí é só configurar um docker compose e eu achei esta imagem pra subir:

https://github.com/mmartial/ComfyUI-Nvidia-Docker?tab=readme-ov-file

Só ler o README e seguir o que ele fala. Ele vai subir a interface web ComfyUI, que é a melhor hoje em dia e tem um estilo de Nodes e Workflow pra programar a geração de imagens. Pra quem é de Da Vinci Resolve ou Blender, é parecido.

Finalmente, mesmo os modelos abertos de Stable Diffusion sendo muito bons, eles ainda tem aqueles problemas de imagens de I.A. de mais de 5 dedos nas mãos, aparecendo uma terceira perna do nada, e não conseguindo escrever nenhuma palavra direito.

Mas aí tem o pulo do gato. Saiu um novo modelo aberto mais avançado, o FLUX. Depois de ter o ComfyUI funcionando, é só continuar seguindo este outro tutorial pra saber de onde baixar e onde instalar Flux:

https://comfyanonymous.github.io/ComfyUI_examples/flux/

E é isso aí! Com isso posso gerar imagens que um Dall-e/ChatGPT se recusa a gerar, e com a vantagem de ter menos halucinações e até com textos. Veja a imagem de exemplo abaixo como o texto aparece nítido e legível.

AkitaOnRails on Nostr: Finalmente voltei a reconfigurar um setup de gerador de imagens estilo Dall-e ou ...