[AI] AI 이미지 생성 여정: 내가 직접 써본 도구와 경험들

일요일좋아하는사람 2025. 4. 20. 18:59

728x90

최근 들어 이미지 생성 AI의 발전은 눈이 부시게 빠르다. 나 역시 흥미 반, 실험 반으로 여러 툴들을 사용해 보며 이미지 생성의 가능성과 한계를 테스트해보았다. 단순히 '그림을 만들어 본다'는 것을 넘어서, 다양한 스타일, 기술, 구현 방식까지 탐색해본 그 경험을 기록으로 남겨본다.

1. 프롬프트 작성 실험

AI 이미지 생성의 핵심은 역시 프롬프트다. 단어 하나, 구절 하나에 따라 결과물이 완전히 달라지기도 한다. 나는 특히 아래와 같은 키워드 실험을 주로 해봤다.

"masterpiece, ultra highres, cinematic lighting" 같이 퀄리티 강화 키워드
"anime style", "Ghibli-style", "dragonball-style" 같은 스타일 지정 프롬프트
공간, 조명, 감정 표현 관련 키워드들

프롬프트는 그 자체로 하나의 언어다. 실험을 거듭하며 점점 더 정교하고 원하는 스타일을 컨트롤할 수 있게 되었다.

나의 프롬프트 실험 여정

1단계: 막연한 키워드 나열 → 실패

초반엔 "beautiful woman, anime, high quality"처럼 단어만 나열했다. 결과는 흔한 이미지 생성에서 벗어나지 못했고, 원하는 디테일이 없었다. 배경도 흐릿하거나 어울리지 않는 구도로 나오는 경우가 많았다.

2단계: 스타일 + 조명 키워드 조합 → 약간 개선

"masterpiece, cinematic lighting, 4k, ghibli-style" 등을 넣어봤을 땐, 이전보다 뚜렷한 스타일이 느껴졌다. 하지만 여전히 인물의 포즈나 감정 표현이 어색하거나, 의도와 다른 장면이 생성되었다.

3단계: 구도와 감정 표현 키워드 추가 → 성공의 시작

여기서부터는 프롬프트에 "overhead shot, close-up portrait, melancholy expression, rim lighting" 등 세부 요소를 추가했다. 이때부터 인물의 방향, 분위기, 감정 전달이 훨씬 정교해졌다.

4단계: 명사+형용사+장면 키워드 구조화 → 성공 확장

예시: "a young woman, wearing a traditional hanbok, standing under cherry blossoms, soft ambient light, pastel tone, spring vibe" 이런 식의 구조화된 프롬프트를 사용하자, 배경과 인물의 관계성, 시즌감, 전체 색감이 훨씬 조화를 이뤘다.

5단계: 실패 프롬프트 회고

너무 많은 쉼표와 키워드를 중복 사용했을 때 → 노이즈 많고 구도 흐트러짐
키워드 순서가 무작위일 때 → 주제가 흐릿하거나 엉뚱한 장면 나옴
"realistic"과 "anime" 키워드를 함께 넣었을 때 → 혼종 느낌의 어색한 이미지

6단계: 성공 팁 정리

명확한 주어 + 환경 + 조명 + 감정 표현의 조합이 가장 안정적이었다
정리된 프롬프트는 반복 생성 시 일관성도 높았다
키워드는 앞에 있을수록 강조된다는 점도 중요한 발견이었다

이러한 반복 실험을 통해, 단순히 모델에 기대기보단 프롬프트 작성자가 디렉터가 되어야 원하는 결과를 얻을 수 있다는 걸 배웠다.

아래 문서 참고

https://ilikesunday.tistory.com/24

[AI] 프롬프트 작성 실험 - AI 이미지 생성의 핵심을 탐구하다

프롬프트 작성 실험 - AI 이미지 생성의 핵심을 탐구하다AI 이미지 생성에서 가장 중요한 요소는 무엇일까? 수많은 모델과 기술이 존재하지만, 사용자에게 가장 큰 영향력을 주는 건 단연 프롬프

ilikesunday.tistory.com

2. 다양한 모델 비교 체험기

내가 주로 사용해본 모델은 다음과 같다:

Stable Diffusion 1.5 / SDXL: 가장 기본적인 베이스, 다양한 스타일과 해상도 대응이 좋아 자주 사용했다.
Counterfeit, PerfectWorld, AOM3: 감성적 스타일, 애니메이션풍, 인물 묘사 등에 특화된 모델들
Realistic Vision, ChilloutMix: 포토리얼 느낌을 살리고 싶을 때 사용

각 모델마다 결과물의 느낌이 완전히 다르다. 같은 프롬프트를 넣어도 모델에 따라 분위기가 천차만별이었다.

아래 문서 참고

https://ilikesunday.tistory.com/25

[AI] 다양한 모델 비교 체험기 - AI 이미지 생성에서 모델을 선택하는 기준

AI 이미지 생성에 있어 프롬프트가 문장의 구성이라면, 모델은 화풍을 결정짓는 화가와도 같다. 어떤 프롬프트를 넣느냐 못지않게, 어떤 모델을 선택하느냐에 따라 결과물은 극명하게 달라진다.

ilikesunday.tistory.com

3. AnimateDiff 활용으로 움직이는 이미지 만들기

정적인 이미지를 넘어서 움직이는 이미지를 만들고 싶었던 건 자연스러운 욕심이었다. 특히 캐릭터가 살아 있는 듯한 장면 미세한 감정의 흐름, 조명이 바뀌는 구도 등을 구현하기 위해 AnimateDiff를 직접 시도해보기로 했다. 기본적으로는 Stable Diffusion 기반 이미지 생성 모델을 프레임 단위로 반복 실행하면서, 시간 축을 따라 시각적 변화가 일어나도록 설계된 것이 AnimateDiff의 핵심이었다. 하지만 단순히 모델을 설치하고 돌리는 것만으로는 매끄러운 결과가 나오지 않았다. 설정을 조금만 잘못 건드려도 어색한 움직임, 프레임 간 튐 현상, 모델 붕괴 등의 문제가 발생했기 때문이다.

가장 먼저 부딪힌 벽은 motion adapter 설정이었다. AnimateDiff는 motion adapter를 통해 '움직임'에 대한 정보를 학습한 파라미터를 반영하는데, 이 adapter가 모델과 잘 맞지 않거나, 특정 버전에 따라 동작이 달라지기도 했다. 예를 들어 SD 1.5 기반 모델에선 guoyww/animatediff-motion-adapter-v1-5-2가 잘 작동했지만, 다른 버전에서는 adapter를 바꾸거나 custom motion module을 수동으로 불러와야 했다. 또한 adapter를 float16으로 설정하면 메모리 절약에는 도움이 되었지만, 오히려 생성된 프레임에서 디테일 손실이 생기거나 색상 표현이 뭉개지는 일이 종종 있었다.

프레임 수에 따른 결과 차이도 꽤나 흥미로운 실험 주제였다. 일반적으로 16프레임 이하에서는 움직임이 단편적이고 짧은 루프로 보였고, 24~32프레임이 넘어가면 배경이 미묘하게 흔들리거나 카메라 워크 느낌이 살아났다. 하지만 프레임이 늘어날수록 메모리 소모와 생성 시간도 가파르게 증가했고, 중간 프레임에서 모델이 잠시 붕괴되듯 이상한 구도나 픽셀 노이즈가 발생하는 경우도 있었다. 이를 해결하기 위해 나는 guidance_scale, motion_bucket_id, num_inference_steps 등의 파라미터를 직접 조절하면서 움직임의 정도와 이미지 품질의 균형을 맞춰야 했다. 예를 들어 motion_bucket_id가 너무 낮으면 거의 정적인 이미지만 생성되었고, 너무 높으면 지나치게 흔들리거나 파형이 이상한 움직임이 나타났다.

또 하나의 핵심은 export_to_gif였다. 처음에는 단순히 생성된 이미지 시퀀스를 gif로 묶는 과정이라고 생각했지만, 막상 실행해보니 이미지 해상도, 프레임 간 색상 일관성, 압축률 등이 전반적인 퀄리티에 큰 영향을 줬다. 특히 GIF로 묶을 때의 loop 설정, 속도 조절이 자연스러운 연출을 만드는 데 중요한 요소였고, 결과적으로는 '움직이는 장면'이라기보다 '호흡을 느낄 수 있는 장면'을 만드는 방향으로 점차 관심이 옮겨갔다.

AnimateDiff를 활용하면서 내가 얻은 가장 큰 교훈은, 이 도구는 단순히 '움직임을 생성하는 도구'가 아니라 '시간의 감각을 설계하는 시스템'이라는 점이었다. 캐릭터가 움직일 때만큼, 정지하고 있을 때의 프레임도 중요했고, 조명 변화, 구도의 전환, 감정의 축적 등이 어우러졌을 때 진짜로 사람의 감정을 건드릴 수 있는 짧은 영상이 탄생했다. 앞으로 이 경험을 기반으로 longer frame, audio-reactive motion 등 새로운 시도를 해볼 생각이며, AnimateDiff는 단순한 AI 모델을 넘어서 작은 연출 도구로서 내 작업에서 중요한 도구가 되어가고 있다.

정적인 이미지에서 한 발 더 나아가, 프레임 단위로 생성된 이미지를 묶어 GIF처럼 움직이는 영상을 만드는 실험도 해봤다.

AnimateDiffPipeline을 활용한 테스트
motion adapter 설정 및 DDIMScheduler 튜닝
export_to_gif로 프레임 묶기

결과물은 짧은 애니메이션 클립처럼 보이기도 했고, 캐릭터의 감정이나 장면 전환도 어느 정도 표현이 가능했다.

아래 문서 참고

https://ilikesunday.tistory.com/26

[AI] AnimateDiff 실험기 - 움직임이 있는 상상력의 실현

AI 이미지 생성에서 정적인 프레임을 넘어 움직임이 있는 장면을 만들어보고 싶다는 생각은 자연스럽게 따라온다. 특히 애니메이션에서 볼 수 있는 짧은 연출, 인물이 카메라 앞에서 천천히 움

ilikesunday.tistory.com

4. WebUI 기반 생성 실험

Colab이나 RunPod 같은 환경에서 Stable Diffusion WebUI를 띄워 테스트했다.

.safetensors 모델을 diffusers 형식으로 변환하기 위한 과정
WebUI에서 프롬프트 입력 → 즉시 시각적 결과 확인
NSFW가 허용되지 않는 플랫폼 제한을 우회한 로컬/프라이빗 테스트

기술적 구성요소를 조립하듯 구성하며, 환경 세팅 자체가 하나의 재미 요소가 되기도 했다.

아래 문서 참고

https://ilikesunday.tistory.com/27

[AI] WebUI 기반 AI 이미지 생성 실험 - 설치, 설정, NSFW 활용까지의 여정

AI 이미지 생성에서 가장 널리 사용되는 인터페이스 중 하나는 Stable Diffusion 기반의 WebUI다. AUTOMATIC1111로 대표되는 이 인터페이스는 마치 포토샵처럼 직관적인 사용자 경험을 제공하면서도 고급

ilikesunday.tistory.com

5. 클라우드 환경 탐색기

AI 이미지 생성에는 GPU가 필수다. 이를 위해 다음과 같은 클라우드 플랫폼을 직접 사용하며 속도, 가격, 유연성 등을 비교해보았다. 각 플랫폼은 접근 방식, 지원 스펙, 과금 방식 등에서 차이가 있으며, 그에 따라 선택 기준도 달라진다.

🔹 Google Colab

장점: 매우 쉽게 접근 가능, 기본 무료 GPU 제공, 익숙한 Jupyter 환경
단점: 프리미엄 사용자 우선 할당으로 GPU가 자주 끊김, 장시간 작업 제한, NSFW 콘텐츠 차단 가능성
속도: T4 기준 4~6초/이미지 수준 (txt2img 512x512 기준)
비용 효율: 무료(일반), 월 $9.99 (Colab Pro), $49.99 (Colab Pro+)
총평: 초보자용 테스트에 최적, 대량 생성은 불리함

🔹 Kaggle

장점: 무료로 30~40시간/주 GPU 사용 가능, Colab보다 쾌적한 환경
단점: 설정이 번거롭고 notebook 구조 제약 있음, WebUI 설치 난이도 높음
속도: Colab T4와 유사, 때론 더 빠름
비용 효율: 무료 (단, 하루 사용량 제한 있음)
총평: 코딩 중심 사용자에게 적합, GUI 기반 생성엔 부적합

🔹 RunPod

장점: 다양한 GPU 선택 가능(A5000, A6000, 3090, L40 등), WebUI 사전설정 가능, 장시간 사용에 최적
단점: 유료, 한국 기준 IP 연결 시 로딩 속도 느릴 수 있음
속도: A5000 기준 1~2초/이미지 (512x768), batch 처리에 탁월
비용 효율: A5000 약 $0.45/hr, 자동 절전 기능으로 세션 유지 가능
총평: 가장 현실적인 AI 생성 작업 환경, 프리셋 관리에 적합

🔹 Paperspace

장점: Jupyter 기반의 GUI/CLI 모두 가능, Core+Pro VM 선택 가능
단점: 세션 만료 이슈, 일부 지역은 느림, NSFW 정책 불명확
속도: P5000 기준 3~4초/이미지, 저장소 연동 필요
비용 효율: 기본 무료 GPU 존재하나 유료 플랜 추천 (약 $0.4/hr~)
총평: 서버/코드 분리 작업이 필요한 사용자에 적합

🔸 나의 선택: RunPod

결론적으로 나는 RunPod를 주력 플랫폼으로 사용하고 있다. 이유는 다음과 같다:

모델과 확장(AnimateDiff, ControlNet 등)을 자유롭게 설치 가능
SSH 접속, WebUI 자동 실행 등 생산성 최적화
하루 2~3시간 생성 기준 월 30달러 내외 비용 → Colab Pro보다 효율적

플랫폼 선택의 핵심은 목적에 맞는 균형이다. 테스트 위주라면 Colab이나 Kaggle도 훌륭하고, 수익화 가능한 이미지 생산이라면 RunPod나 Paperspace로의 전환이 필요하다. 각각의 성능과 조건을 이해하고 나에게 맞는 환경을 구성하는 것이 AI 생성의 시작이라고 할 수 있다.

AI 이미지 생성에는 GPU가 필수다. 이를 위해 다음과 같은 클라우드 자원을 탐색해봤다.

Colab: 가장 간편하지만 GPU 제한과 속도가 아쉬움
Kaggle: 세팅이 번거롭지만, 일정 시간 무료 GPU 제공
RunPod: 가격 대비 성능이 매우 뛰어나고, 지속적인 활용 가능
Paperspace: Jupyter 기반 환경에서 손쉽게 테스트 가능

결국 가장 안정적이고 지속적으로 사용할 수 있는 플랫폼으로는 RunPod를 선택했다. 원하는 성능과 요금을 조절하며 유연하게 쓸 수 있었기 때문이다.

아래 문서 참고

https://ilikesunday.tistory.com/28

[AI] 클라우드 환경 비교: AI 이미지 생성을 위한 최고의 플랫폼은?

AI 이미지 생성을 위해선 GPU 자원이 필수다. 하지만 모두가 고성능 GPU를 가진 PC를 갖춘 것은 아니다. 이런 상황에서 클라우드 기반의 GPU 플랫폼은 놀라운 가능성을 제공한다. 이 문서에서는 내가

ilikesunday.tistory.com

마치며

처음엔 단순한 호기심에서 시작했던 AI 이미지 생성. 하지만 지금은 단순한 취미를 넘어, 새로운 표현 수단이자 창작 도구로 자리 잡고 있다. 예술, 디자인, 영상 등 다양한 분야에 확장 가능성이 보이며, 앞으로도 계속 실험을 이어나갈 계획이다.

비록 일부 NSFW 스타일의 실험도 있었지만, 이는 순수히 AI의 표현력과 생성 능력을 테스트해본 것이며, 그 자체로 흥미로운 연구 대상이 되었다고 생각한다.

728x90

'AI' 카테고리의 다른 글

[AI] 클라우드 환경 비교: AI 이미지 생성을 위한 최고의 플랫폼은? (0)	2025.04.20
[AI] WebUI 기반 AI 이미지 생성 실험 - 설치, 설정, NSFW 활용까지의 여정 (0)	2025.04.20
[AI] AnimateDiff 실험기 - 움직임이 있는 상상력의 실현 (0)	2025.04.20
[AI] 다양한 모델 비교 체험기 - AI 이미지 생성에서 모델을 선택하는 기준 (1)	2025.04.20
[AI] 프롬프트 작성 실험 - AI 이미지 생성의 핵심을 탐구하다 (2)	2025.04.20

현재글[AI] AI 이미지 생성 여정: 내가 직접 써본 도구와 경험들

개발보다는 생산성

일요일을 좋아하는 생산성 좋아하는 개발자

300x250

쉘스크립트예제, 자동화, DevOps, C언어, GPTs, 파이썬, Python, GPT, 쉘, 쉘스크립트, C, 게임만들기, 스크립트, bash, 테라폼, Ai, pygame, 앤서블, SH, terraform,

Today :
Yesterday :

개발보다는 생산성