스테이블 디퓨전

스테이블 디퓨전은 latent text-to-image diffusion model로 텍스트만 주면 이미지를 생성해주는 딥러닝 모델입니다. 복잡하게 보이지만 일단 AI 이미지 생성기라고 이해하면 됩니다.

 

text-to-image(TTI)라는 말 그대로 텍스트를 주면 이미지를 생성합니다. 스테이블 디퓨전과 비교되는 TTI 모델은 OpenAI의 DALL.E나 MidJourney 등이 있습니다. 이 포스트에는 스테이블 디퓨전을 가지고 놀이터(Playground)에서 좀 놀아보겠습니다.(Play)

 

다음 사이트에서 스테이블 디퓨전의 Playground(놀이터)는 현재 회원가입 없이 무료로 사용해볼 수 있습니다.

 

https://stablediffusionweb.com/

 

Stable Diffusion Online

Stable Diffusion Online Stable Diffusion is a latent text-to-image diffusion model capable of generating photo-realistic images given any text input, cultivates autonomous freedom to produce incredible imagery, empowers billions of people to create stunnin

stablediffusionweb.com

 

 

 

프롬프트에 서울의 거리를 걷는 피카츄를 입력해봅니다. 꽤 재미있는 그림이 나옵니다. 실제 서울 거리같지만 간판이나 사람들을 자세히 보면 이상한게 AI가 생성한 그림들입니다. diffusion 기술로 유사하게 만들어준 거지요. 피카츄는 얼굴은 괜찮은데 몸의 형태가 괴상합니다;;; 프롬프트와 옵션(Adcanced Setting)의 설정에 따라서도 결과물은 차이가 납니다. 더 좋은 이미지를 얻기 위해서는 그 만큼 프롬프트의 텍스트도 정제되야 합니다.

 

스테이블 디퓨전 AI 이미지 피카츄

 

퀄리티 세팅을 높여서 서울 남산타워 뷰의 피카추 고급레스토랑을 생성해봤습니다. 흠... 시간은 더 걸렸지만 생각보다 만족스럽습니다. 위에것과 비교하면 피카츄도 좀 더 퀄리티가 좋아진 것으로 보입니다. 시그니처인 남산타워를 잘 표현하는 사진도 몇개 있네요. 

 

스테이블 디퓨전 AI 이미지

 

 

다음은 검은 양복을 입고 검은 모자를 쓰고 웃고 있는 남자입니다. 확실히 학습된 데이터가 어느 인종인지 느낌이 오지요? 약간 기괴해서 호러쪽 썸네일에 써도 될 것 같은데 퀄리티가 나쁘지 않습니다.(호러라면 더욱) 한번에 4개씩 뽑아주는 이유는 서버에 여러번 요청하지 않도록 하기 위한 것 같습니다. 프로그램이 아닌 사람이 프롬프트를 넣으면 맘에 안들면 여러번 요청하게 되는데 일단 네개를 보여주면 그걸 보고 판단하는 시간이 있기 때문에 서버에 요청하는 빈도수를 줄일 수 있으니까요.

 

스테이블 디퓨전 AI 이미지

 

아래는 프롬프트에 좀 더 신경을 써서 넣어봤습니다.

 

'빨간 드레스를 입은 파란 눈과 곱슬 긴 금발 머리를 가진 젊은 여성의 사실적인 초상화' 퀄리티를 중간 정도로 출력했습니다.

스테이블 디퓨전 AI 이미지

퀄리티 값을 높이고 가이던스 스케일(guidance scale)값을 높여서 생성해봤습니다. 약간 어색한 부분도 있지만 얼굴의 퀄리티는 더 좋아졌습니다. 각기 개성이 있고 매력적이기 까지 해서 이 정도면 책표지에 사용해도 될 것 같습니다.  상당히 인상깊은 결과를 가져옵니다. 초상화 이정도로 그릴려면 몇년간 그림을 그려야 할까요?

 

스테이블 디퓨전 AI 이미지

 

화가는 자신의 손으로 그리기 때문에 원하는데로 그리지만 text로는 아직 표현력에 한계가 있습니다. 하지만 화가는 하나의 그림을 완성하기 위해 최소 몇시간에서 며칠이 걸리기도 하고 대가의 그림은 몇년이 걸릴지 모릅니다. 현재 스테이블 디퓨전에서 이 그림을 뽑기위해 걸리는 시간은 수십초입니다. 대한민국의 대표 현대미술작가인 故이만익 선생(1938~2012)은 초등학교 때부터 그림을 그리기 시작해서 평생 3000점 정도의 작품을 남겼다고 합니다. 정말 쉬지 않고 평생동안 그림을 그리셨던 거지요. 물론 이만익 작가의 그림을 AI가 대체하는 것은 불가능하지만 우리가 프롬프트로 그림을 그리기 시작하면 하루에 100개 1000개도 그릴 수 있습니다. 이것은 기존의 세상 질서를 흔들기에 충분합니다.

 

저작권 문제

 

저작권에 관련해서는 Creative ML OpenRAIL-M License를 적용합니다. AI생성 콘텐츠의 저작권은 현재 회색지역에 있는데 이미지 자체를 어디에 올려서 팔거나 하는 부분은 많이 민감한 상황이고, 2차 창작물에서는 많은 경우 무료로 사용가능한 범위에 있습니다. (많은 경우라지만 케바케다) AI 생성 이미지의 저작권에 관한 논의는 이제 막 시작된 단계라 앞으로 글로벌 가이드가 나올 것으로 보입니다.

 

영국에서는 AI그림에 저작권을 적용할지 말지를 앞으로 AI그림이 대중화 된 후 사회 현상을 보고 결정하는 ‘열린 결말’로 놔두었고 한국저작권위원회 측도 "AI저작권이 어떻게 정립될지는 논의가 진행되는 중"이라고 합니다. 이런 현상은 이전에도 있었습니다. 새로운 매체가 만들어질 때마다 저작권 문제가 불거집니다.

 

*해서 이 스테이블디퓨전을 가지고 놀아봤습니다. 요새는 미드저니(midjourney)가 더 주목받는 것 같은데 다음에 그 쪽도 알아보겠습니다

공유하기

facebook twitter kakaoTalk kakaostory naver band