그림 그리는 AI, Text를 입력하면 AI가 알아서 원하는 이미지 샘플을 보여주고 사용자는 원하는 이미지를 선택한다.
그림 그리는 AI (Stable diffusion) 가 8월에 오픈소스로 공개되면서 AI가 스스로 text를 image화 하는 능력에 너무 놀랐고 재미있었다. 기존에 OpenAI 의 DALL E2, google의 Imagen등이 있었지만 오프소스가 아니었다. Stable diffusion은 이제 2개월 정도 지났지만 사람들은 자신이 만들어낸 이미지를 공유하고 있고, 어떻게 input을 넣어야 사실적이거나 자신이 원하는 이미지를 얻는가를 알기위해 text_prompt에 대해서도 활발하게 논의중에 있다.
정말 고퀄리티의 그림들이 high_quality, 4k등의 tag만 입력하면 생기니까 흥미롭고 신기했다. 이런 생각을 하던차에 이번 팀프로젝트에서 medical report를 가지고 x-ray 이미지 형태로 바꾸는 걸 진행해 보기로 하였다. Stable diffusion에 대해서 찾아보고 VAE, GAN등도 공부중이다. 어떻게 하면 새로운 image와 label을 학습시켜 원하는 결과를 얻을 지 궁금하다.
Stable diffusion model 은 원본image에 noise를 추가하는 과정을 반복하여 noise로 가득찬 이미지를 Latent Space에 저장한다. 이후 noise를 제거하는 decoding과정을 거치면서 새로운 이미지를 만들어 낸다. 이미지가 만들어진다는 점에서 GAN과 비슷할 수도 있지만 GAN의 경우 generator 가 이미지를 생성하고 discriminator가 진짜이미지와 가짜 이미지를 판별하는 loss를 높이는 방식이다.
제대로 더 알고 싶은데 내용을 내가 아직 이해를 완벽하게 못해서 설명도 제대로 못하겠다. 진행하면서 프로젝트 종료할 때 stable diffusion에 대해서 설명할 수 있는 내가 되었으면 한다.
'Stable Diffusion 프로젝트' 카테고리의 다른 글
Stable diffusion v2.0의 발표 (0) | 2022.11.28 |
---|---|
colab에서 dreambooth 학습 (0) | 2022.11.14 |
왜 conda venv를 쓰는지 생각 (0) | 2022.11.03 |
문제 해결방법에 대해 (0) | 2022.10.28 |
ML inference란 (0) | 2022.10.25 |
댓글