본문 바로가기
Stable Diffusion 프로젝트

Stable diffusion 공부중

by haekyu31 2022. 10. 24.

  그림 그리는 AI, Text를 입력하면 AI가 알아서 원하는 이미지 샘플을 보여주고 사용자는 원하는 이미지를 선택한다.

그림 그리는 AI (Stable diffusion) 가 8월에 오픈소스로 공개되면서 AI가 스스로 text를 image화 하는 능력에 너무 놀랐고 재미있었다.  기존에 OpenAI 의 DALL E2, google의 Imagen등이 있었지만 오프소스가 아니었다. Stable diffusion은 이제 2개월 정도 지났지만 사람들은 자신이 만들어낸 이미지를 공유하고 있고, 어떻게 input을 넣어야 사실적이거나 자신이 원하는 이미지를 얻는가를 알기위해 text_prompt에 대해서도 활발하게 논의중에 있다. 

 

 정말 고퀄리티의 그림들이 high_quality, 4k등의 tag만 입력하면 생기니까 흥미롭고 신기했다. 이런 생각을 하던차에 이번 팀프로젝트에서 medical report를 가지고 x-ray 이미지 형태로 바꾸는 걸 진행해 보기로 하였다.  Stable diffusion에 대해서 찾아보고 VAE, GAN등도 공부중이다. 어떻게 하면 새로운 image와 label을 학습시켜 원하는 결과를 얻을 지 궁금하다. 

stable diffusion architecture

  Stable diffusion model 은 원본image에 noise를 추가하는 과정을 반복하여 noise로 가득찬 이미지를 Latent Space에 저장한다. 이후 noise를 제거하는 decoding과정을 거치면서 새로운 이미지를 만들어 낸다. 이미지가 만들어진다는 점에서 GAN과 비슷할 수도 있지만 GAN의 경우 generator 가 이미지를 생성하고 discriminator가 진짜이미지와 가짜 이미지를 판별하는 loss를 높이는 방식이다. 

 

 

GAN architecture

  제대로 더 알고 싶은데 내용을 내가 아직 이해를 완벽하게 못해서 설명도 제대로 못하겠다. 진행하면서 프로젝트 종료할 때 stable diffusion에 대해서 설명할 수 있는 내가 되었으면 한다.  

 

'Stable Diffusion 프로젝트' 카테고리의 다른 글

Stable diffusion v2.0의 발표  (0) 2022.11.28
colab에서 dreambooth 학습  (0) 2022.11.14
왜 conda venv를 쓰는지 생각  (0) 2022.11.03
문제 해결방법에 대해  (0) 2022.10.28
ML inference란  (0) 2022.10.25

댓글