AI

[AI] 다양한 모델 비교 체험기 - AI 이미지 생성에서 모델을 선택하는 기준

일요일좋아하는사람 2025. 4. 20. 18:37
728x90
반응형

AI 이미지 생성에 있어 프롬프트가 문장의 구성이라면, 모델은 화풍을 결정짓는 화가와도 같다. 어떤 프롬프트를 넣느냐 못지않게, 어떤 모델을 선택하느냐에 따라 결과물은 극명하게 달라진다. 본 글에서는 내가 직접 사용해본 여러 Stable Diffusion 기반 모델들을 중심으로, 모델 선택의 기준과 특징, 그리고 실험 중 겪었던 시행착오를 모두 정리해본다. 단순히 '이 모델이 좋다'는 평보다는, 어떤 프롬프트에 어떤 스타일의 모델이 어울리는지에 초점을 맞춰 서술하고자 한다. 이는 단순 비교보다는 프롬프트-모델 간 조합의 시너지를 파악하는 과정이기도 하다.

1. Stable Diffusion 1.5와 SDXL - 기본에 충실한 범용형 모델

Stable Diffusion 1.5는 대부분의 커뮤니티에서 가장 널리 사용되는 베이스 모델로, 프롬프트에 대한 반응이 가장 예측 가능하고 안정적이다. 내가 처음으로 AI 이미지 생성을 시작했던 모델도 바로 이 버전이었다. 퀄리티 면에서는 다른 LoRA나 LoCon 등을 얹지 않으면 다소 평범한 느낌이지만, 어떤 스타일을 얹든 기본 뼈대가 안정적으로 잡힌다는 장점이 있다. 프롬프트 구성 실험을 하기엔 이만한 도구가 없다. 반면, SDXL은 이보다 고해상도에 강하고, 이미지 해상도에 따라 표현력이 더 풍부해지는 특징이 있다. 다만, 프롬프트의 스타일 제어력이 1.5보다 약간 떨어질 수 있고, NSFW 필터링이 내장되어 있거나 HuggingFace에서 직접 쓰기에는 제약이 있다.

예를 들어 같은 프롬프트 "a girl sitting on a beach at sunset, cinematic lighting, soft shadows"를 넣었을 때, 1.5는 클래식한 일러스트 톤이 나오지만, SDXL은 보다 자연광 표현에 가까운 실사에 가까운 이미지를 출력하는 경향이 있었다.

2. Counterfeit / PerfectWorld - 감성 일러스트 스타일의 대명사

이 두 모델은 감성적인 색감과 인물 묘사에 특화되어 있다. 특히 Counterfeit은 동양풍 일러스트, 부드러운 조명, 캐릭터의 감정 표현에 최적화되어 있어 내 취향과도 가장 잘 맞는 모델이었다. 반면 PerfectWorld는 디테일한 눈망울 표현이나 스킨 텍스처 묘사에 강하고, 스타일은 좀 더 환상적이며 명암 대비가 강하다. 두 모델 모두 "best quality, 8k, solo, looking at viewer" 같은 프롬프트에 민감하게 반응하며, 얼굴 클로즈업 프롬프트에서 큰 위력을 발휘했다.

하지만 한 가지 주의할 점은, 두 모델 모두 너무 많은 조명/배경/스타일 키워드를 넣으면 결과물이 혼탁해지는 경향이 있다. 적당한 프롬프트 정제가 중요하며, 프롬프트 10개 중 3~4개만 제어 키워드로 넣고 나머지는 맥락을 자연스럽게 잡는 쪽으로 구성하는 것이 좋았다.

3. AOM3와 Realistic Vision - 포토리얼리즘 계열의 대표주자

만약 당신이 '이거 사진 아니야?' 소리를 듣고 싶은 이미지를 원한다면 이 계열 모델들이 적합하다. AOM3는 NSFW 장면 재현에서도 사실적인 구도, 피부 묘사, 신체 비율을 잡아내는 데 강력한 성능을 보였다. Realistic Vision은 그보다 채광 처리와 눈의 초점, 포즈 자연스러움이 뛰어났고, 특히 "realistic lighting, shallow depth of field" 같은 프롬프트에서 큰 효과를 보였다.

이 계열을 쓸 땐 스타일 표현보다는 물리적 묘사(빛, 카메라 각도, 렌즈 종류, 해상도 등)를 조절하는 키워드가 더 유의미했다. 예: "Canon 85mm, bokeh, wide aperture, volumetric light" 등의 프롬프트를 쓰면 차이가 확연하다.

4. ChilloutMix와 GhostMix - 혼합형 스타일의 유연성 실험

이 모델들은 다양한 커스텀 스타일이 믹스되어 있어, 사실감과 애니메이션 감성 사이를 자유롭게 넘나들 수 있다는 특징이 있다. 특히 ChilloutMix는 약간의 감성 일러스트와 사실적인 묘사를 동시에 원할 때 유용했고, NSFW 표현력도 뛰어났다. GhostMix는 얼굴 안정성과 분위기 조정에 강점이 있다. 이 계열을 쓸 때는 프롬프트 구조보다도 키워드 간 밸런스, 즉 '충돌하지 않는 키워드' 배치가 더 중요했다.

예: "an Asian woman standing in the rain, translucent umbrella, neon reflections, detailed eyes, beautiful lighting" 이 프롬프트는 ChilloutMix에선 절묘한 균형감을 갖춘 반면, PerfectWorld에서는 배경이 뭉개지거나 인물의 눈이 너무 강조되는 식으로 튀는 경향이 있었다.

5. 모델 선택의 기준은 결국 '내가 원하는 장면을 누가 잘 그려주느냐'

결국 중요한 건, 단순히 "제일 좋은 모델이 뭘까?"를 찾기보다는, "내가 원하는 장면에 적합한 모델이 뭘까?"를 고민하는 것이었다. 인물 중심의 프레임인가, 전체 배경과 감정을 담은 씬인가, 일러스트 스타일인가, 현실풍인가. 이 기준에 따라 모델을 바꿔가며 실험하는 것이 훨씬 생산적인 전략이었다.

나는 각 모델별로 나만의 프리셋 프롬프트를 만들어 저장해두었고, 반복적으로 사용할 수 있도록 구조화해두었다. 특정 장면(예: '비 오는 도시 거리에서 혼자 우산을 쓰고 서 있는 여성')에 대해 어떤 모델이 가장 일관되고 감성적으로 그려주는지를 테스트한 뒤, 내 기준의 베스트 조합을 쌓아나갔다.

이후 AnimateDiff나 WebUI에서 프레임 연속 생성이나 고해상도 실험을 할 때도, 각 모델의 특성을 기반으로 프롬프트를 커스터마이징하면서 결과 퀄리티를 극대화할 수 있었다.

모델은 붓이고, 프롬프트는 캔버스를 설계하는 언어다. 두 가지가 잘 맞아떨어질 때 비로소, 진짜 '창작'이라 부를 수 있는 이미지가 나온다. 앞으로도 새로운 모델이 나올 때마다 직접 프롬프트를 테스트해보고, 나만의 모델 프롬프트 사전을 계속 만들어갈 생각이다.

728x90
반응형