스테이블 디퓨전(Stable Diffusion)은 DALLE2나 Midjourney와 비슷한 AI 이미지 생성프로그램입니다. 지금은 AI이미지 생성 프로그램은 초초기 라서 이런 것들을 사용해봤다면 얼리어댑터라 할 수 있는데요. 이 시장을 비유로 말하면 삼국시대나 전국시대의 초기? 정도로 군웅할거의 시대가 왔다고 봐도 좋을 듯 합니다 - 라고 해도 어차피 전통의 명문가(MS, 구글, AWS, META 등)와 신흥 세력(OpenAI, Hugging Face 등 오픈소스 계열)의 각축전이 되겠지요.
지금은 아직 기존의 소매 IT시장 특히 검색시장이나 SNS, 스트리밍 동영상 시장에 비하면 작은 규모에 불과하지만 사람들이 느끼는 기대감과 흥분적으로는 1) 인터넷이 대중화 되었을 때 2) 구글검색엔진이 나왔을 때 3) 아이폰이 나왔을 때 4) 유튜브가 대중화되었을 때와 비슷한 수준입니다. 돌아보면 OpenAI의 ChatGPT가 상용화 되기 전까지 지난 몇년간은 인터넷과 IT기술의 침체기였습니다. 인스타그램이 폭발적으로 성장했고 유튜브 시대가 열리고 넷플릭스가 세계화되고 비트코인의 후계자인 이더리움과 함께 코인의 대중화도 열렸습니다만 그것들은 다들 성장의 한계가 금방 왔습니다.
단일 IT기술로 그 성장의 끝을 알 수 없는 것이 지금의 상업용 AI기술입니다. 원래 AI를 수십년간 연구하시던 분들이 지금 다시 세상에 이름을 알리고 있고 우리는 그 동안 소외되거나 잊혀졌던 그분들의 이야기를 들어볼 필요도 있습니다. 다만 당분간은 GPT와 같은 상업용 생성 AI모델을 유저들이 한동안 가지고 놀면서 상업적 가치에 대해 집중할 필요가 있습니다. 아니 이제는 집중력의 문제가 아니라 당연히 해야 하는데 어떻게 할 것인가.
이것들로 무슨 마케팅을 해야 하고 시장에 미치는 파급력이 어떻게 되는가? 굉장히 광범위한 주제에 걸려 있습니다. 한가지 예를 들면 Stable Diffusion 이나 Midjourney 같은 이미지 생성 AI 모델이 조금만 더 진화하면 그림, 그래픽 관련한 시장 전체가 개편이 될 수 있습니다. 즉 하나의 분야의 패러다임 자체를 싸그리 바꿀 수 있다는 말입니다. 그래픽 분야에 한정하지 않습니다. 검색시장, 블로그 포스트, 마케팅 등 조금만 생각해보면 생성 AI가 인간을 대체할 수 있는 일이 너무나 많습니다. 그렇다고 인간을 모조리 다 일터에서 쫓아낸다면 곤란하니까;;; 다는 아니더라도 상당 수 인간의 일을, 인간만 할 수 있다고 믿어왔던 일들이 대체가능합니다.
이런 것들은 체감이 잘 안되지요. 우리가 겪어왔던 세상이 아니기 때문입니다. 해서 Stable Diffusion 과 같은 오픈소스 제품을 사용하는 것은 이 세상의 변화를 다른 사람보다 쪼끔 더 일찍 체감할 수 있는 방법 중 하나입니다. 다행히 오픈소스에 무료로 사용가능하고 또 그것으로 생성한 콘텐츠는 자신이 저작권을 주장할 수 있기에(현재로써는) 콘텐츠 크리에이터라면 반드시 사용 해보는 것을 추천합니다.
유일한 걸림돌은 Stable Diffusion을 API로 사용하면 상관이 없으나 나의 로컬 PC에서 돌리면 좋은 GPU가 필요합니다. GPU도 그렇고 VRAM 사양이 높지요. 뭐 해상도나 옵션을 최대한 줄여서 생성하면 적은 VRAM으로도 생성이 된다고 합니다만... 그렇게는 이미지 하나 생성하는데 시간도 많이 걸리고 만족이 쉽지 않겠지요. 그렇다고 당장 GPU를 바꿀까 알아보면 쓸만한 nvidia의 그래픽카드는 최소 50만원대에서 시작합니다. 그래서 성능의 문제는 일단 본인의 PC에서 최대한 좀 해보고 욕심이 생기면 가격을 알아 볼수도 있는거고, 막말로 AI이미지 콘텐츠를 팔아서 그래픽카드 값을 벌 수 있을 것 같으면 RTX 3070TI 정도는 업그레이드 할수도 있는 거겠지요. 아니면 구글 코랩으로 최대한 무료로 써보며 판단할 수도 있을겁니다.
Stable Diffusion 이 아니더라도 웹에서 사용가능한 AI이미지 생성기는 많습니다. Stable Diffusion 을 사용하려는 것은 좀 진지하게 이미지를 뽑아보겠다는 의지가 있어야 쓸 수 있겠지요.
암튼 오늘도 잡설이 길었는데 필자도 이 새로운 기술들을 따라가는 것만도 두뇌의 시간이 느려집니다. 올드타입 CPU다보니 자꾸 처리 시간 지연과 버퍼링이 걸리는 것이지요. 이런 것은 새하얀 뇌로 하는게 좋은데 그게 안되면 올드스쿨은 올드스쿨만의 시간을 가질 필요가 있습니다. 신기술을 배우는데 있어서 나이를 따지면 이미 본인의 그릇은 정해진 것 입니다. 그건 나이와 상관이 없습니다. 어떤 사람이 20대에 대학을 졸업하고 그 뒤로 아무 공부도 하지 않는다면 5년 후 그는 올드스쿨이 될겁니다. 그리고 공부는 상당히 시간이 걸리지요. 그냥 일하고 쉬고 놀면서 할 수 있기가 어렵지요.
그럼 이제 Stable Diffusion 을 설치하고 테스트해보겠습니다.
일단은 GPU 사양을 확인할 필요가 있습니다. 윈도우는 작업관리자에 들어가서 성능을 체크합니다. Nvidia GPU가 필요하고 VRAM은 최소 4기가 이상 필요합니다. 필자의 PC도 이 기준에는 맞지 않습니다만, 최소한의 이미지 생성만 할거고 또 3기가에서는 어느 정도 성능인지도 궁굼하니까 이대로 해보겠습니다.
다음은 깃허브와 파이썬을 설치해야 합니다. 깃설치는 아래 링크를 참고합니다.
깃 설치 (Git) / 깃허브(Git Hub) 가입 / 깃 지스트(Git Gist) 사용하기 - 윈도우11 (tistory.com)
git 홈페이지에서 설치해도 되는데 필자는 scoop 설치를 추천합니다. 어떻게 설치하던 상관은 없습니다. 그냥 git이 되기만 하면 됩니다. 예전에 깃은 프로그래머들만 사용했었는데 지금은 이러한 오픈소스 프로그램 중에 깃허브를 통해 공개하는 일이 많으니까 프로그래머가 아니더라도 설치해두면 잘 써먹을 수 있습니다.
scoop install git
윈도우 패키지 매니저 Scoop 설치와 사용법 (tistory.com)
파이썬의 설치는 아래 문서를 참고합니다. webui는 파이썬 3.10.6 에서 테스트 되었다고 나옵니다. 인스톨 도중 호환성 문제가 발생하면 호환성에 맞는 버전으로 다시 설치하거나 conda 등 가상환경에서 맞는 버전을 설치할 필요가 있습니다.
파이썬 설치 방법 총정리 (윈도우 / 리눅스) (tistory.com)
터미널을 열고 git clone 합니다. 스테이블 디퓨전을 위한 폴더를 하나 만들어 놓고 거기다 풀면 됩니다. 아래 stable-diffusion-webui를 로컬 PC로 복사할 겁니다.
GitHub - AUTOMATIC1111/stable-diffusion-webui: Stable Diffusion web UI
git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui.git
다음은 모델 (Checkpoint)을 다운로드 받습니다. 모델에 따라 머신 러닝한 데이터가 다르기 때문에 용량이나 결과물에 차이가 있을 수 있으나 단순히 용량이 크다고 좋은 결과물이 나오는 것은 아니라고 합니다.
runwayml/stable-diffusion-v1-5 · Hugging Face
필자는 위 사이트에서 VRAM을 적게 사용하는 4기가 모델을 다운로드 받았습니다. 이 모델이 지난달에만 310만회 넘게 다운로드 받았다니까 사용자가 많아서 노하우도 많이 찾을 수 있을겁니다.
아까 클론으로 복사했던 stable-diffusion-webui\models\Stable-diffusion\ 폴더에 다운로드받은 모델을 집어넣습니다.
stable-diffusion-webui 폴더에 있는 윈도우즈 배치파일을 실행시킵니다.
webui-user.bat
배치파일을 실행하면 가상환경을 만들고 자동으로 라이브러리(depency)를 다운로드 받습니다. 초기설치에는 다운로드와 설치 프로세스가 조금 시간이 걸립니다.
정상적으로 설치가 돼었다면 초기 webui 접속 주소는 다음과 같습니다. 웹브라우저에 접속합니다. webui 라는 이름은 web에서 사용하는 stable diffusion의 user-interface라는 뜻 입니다.
http://127.0.0.1:7860/
접속하면 아래와 같은 복잡한 사용자 인터페이스가 나옵니다. txt2img 가 text to image 입니다. 여기에 프롬프트를 넣은 후 Generate 버튼으로 생성됩니다.
간단한 프롬프트를 생성해보니 메모리가 모자라서 생성이 안됩니다;;; 이것이 좋은 GPU를 써야 하는 이유입니다 ㅠㅠㅠ 해상도를 낮춰서 메모리를 적게 써보겠습니다. (여기서 메모리는 GPU의 전용 VRAM을 말함)
VRAM이 최소인 4기가에도 미치지 못하니 다른 옵션들은 건드리지도 못하겠네요. 512x512보다 낮은 값을 넣고 돌려봅니다.
어쨋든 이미지를 생성하며 테스트 해봤습니다. GPU의 한계로 제대로 만들기가 쉽지 않지만 필자도 웹에서 AI 이미지 생성기를 몇번 써봤을 뿐이라 세부 설정이 쉽지 않아서 기괴한 그림들이 많이 나오네요. 이런 날것의 diffusion 기술도 결국은 시간이 지나면 더 좋아지겠지요. 한편 이 기괴함도 나름의 창조성이 재미있습니다
이거 하다보면 진짜 시간가는줄 모릅니다. 단어 하나, 문장 한 문장으로 이미지를 만들 수 있다는 것은 그 동안은 꿈의 미래 세계 였습니다.
이 짓을 하다 보면 어떻게 되나요? 결국 고가의 그래픽 카드를 사서 싸이버 세계에 빠지게 됩니다...
Stable Diffusion 을 돌리려면 최소한 RTX 3060Ti 정도는 갖춰야 할 듯 합니다. 그 이상의 스펙은 이제 가격대가 100만원 대로 가버리니까 보통의 PC 유저라면 쉽지 않겠지요. 3060은 3060Ti보다 성능이 떨어지지만 VRAM이 12기가입니다. Stable Diffusion에서는 VRAM이 많을수록 좋기 때문에 3060도 장점이 있습니다. 메모리를 많이 쓰는 세팅을 주로 한다면 3060도 괜찮은 선택이겠네요. 그런데 필자도 AI이미지 생성하는 방법을 아직 잘 모르기 때문에 무슨 모델을 얼마 정도 돌리기 위해 어느 정도 스펙이 필요한지는 잘 모르겠네요. 그래픽 카드가 GTX 1060 3기가라 스테이블 디퓨전을 돌리기엔 적합하지 않습니다. 로우 스펙 테스트나 해야겠네요.
*참고로 필자는 처음에는 실행이 안됐는데 nvidia의 그래픽 드라이버를 최신으로 업데이트하니까 잘 작동했습니다.
아래 Playground의 웹에서도 사용해 볼 수 있습니다.
스테이블 디퓨전 Playground 사용해보기 / AI그림생성 / AI이미지 생성 (tistory.com)
스테이블 디퓨전은 사용법이 굉장히 복잡한 편입니다. 그냥 Default 값에 놓고 써도 상관은 없지만 결국은 이걸 쓰는 이유가 다양한 모델을 써보고 샘플링 메소드를 달리하고 - 그런 세세한 설정값을 직접 입력하기 위해서 인데 일단 사용법이 웹에 많이들 올라오고 있습니다.(최신의 사용법이라 해야하나;;;) 그래픽 카드가 구려서 많은 것은 못하겠지만 저도 당분간 여러가지 테스트 하면서 다음 포스트에 다루도록 하겠습니다.
위에 드래곤도 그랬지만 아래와 같은 이미지의 기괴함은 뭔가 기분이 이상한데 중독성이 있습니다. 불편한 골짜기?? (표정을 찡그리면서 계속계속 프롬프트를 치게된다; 한때 좀비물의 팬이어서 그런가...)