مطالعه موردی: بهینه‌سازی گردش کار ComfyUI

۱۴۰۵/۴/۱۳ · ۲۹ دقیقه مطالعه

گندم کریمی
گندم کریمی

۵

متخصص هوش مصنوعی و تولید محتوا در Axeto. روی Prompt Engineering، Flux، ComfyUI و workflowهای تصویر/ویدیو AI تمرکز دارد.

نکات کلیدی

  • ترکیب هوشمندانه مدل پایه (Checkpoint Model) و LoRAهای تخصصی (مانند add_detail, epi_noiseoffset, more_details) برای افزایش چشمگیر کیفیت و جزئیات تصویر ضروری است.
  • استفاده از تکنیک Latent Upscale در ComfyUI برای افزایش مقیاس تصویر (مانند 2x) با حفظ و بهبود جزئیات، بسیار مؤثرتر از Upscale پیکسلی است.
  • تنظیم دقیق پارامترهای سمپلر (مانند DPM++ 2M SDE Karras با 30 مرحله) و CFG Scale (مقدار 7) برای هدایت مدل به سمت خروجی مطلوب و واقع‌گرایانه حیاتی است.
  • مرحله بازتولید (Refinement) پس از Upscale با دینویز پایین (0.3) به مدل امکان می‌دهد تا جزئیات جدید را در ابعاد بزرگتر تثبیت کند و بافت‌ها را بهینه سازد.
  • پرامپت‌نویسی دقیق و جامع، هم برای پرامپت‌های مثبت و هم منفی، نقش کلیدی در کنترل خروجی و جلوگیری از ناهنجاری‌ها دارد.

Axeto را امتحان کنید

مقاله را خواندید — حالا با ابزار واقعی Axeto خروجی بگیرید.

تصویر کاور مطالعه موردی ComfyUI: پرتره زنانه فوق‌العاده واقع‌گرایانه با جزئیات دقیق پوست، مو و چشم، نشان‌دهنده کیفیت بالای تولید شده توسط هوش مصنوعی.

مطالعه موردی: بهینه‌سازی گردش کار ComfyUI برای تولید محتوای بصری با کیفیت بالا

در دنیای پرشتاب تولید محتوای دیجیتال، سرعت، کیفیت و کارایی از اهمیت بالایی برخوردارند. با ظهور هوش مصنوعی مولد، ابزارهایی مانند ComfyUI به هنرمندان و تولیدکنندگان محتوا این امکان را می‌دهند که ایده‌های خود را با دقت و انعطاف‌پذیری بی‌سابقه‌ای به واقعیت تبدیل کنند. این مطالعه موردی به بررسی عمیق یک گردش کار بهینه‌سازی شده در ComfyUI می‌پردازد که به طور خاص برای تولید تصاویر با کیفیت بالا و جزئیات دقیق طراحی شده است. هدف ما این است که نشان دهیم چگونه با ترکیب مدل‌های پیشرفته، تکنیک‌های خاص و تنظیمات دقیق، می‌توان به نتایجی دست یافت که فراتر از انتظارات اولیه هستند.

چالش

تولید تصاویر با کیفیت بالا و جزئیات دقیق، به خصوص در مقیاس بزرگ و با نیاز به تکرارپذیری، همواره یکی از چالش‌های اصلی در زمینه تولید محتوای بصری بوده است. هنرمندان و طراحان اغلب با مشکلات زیر روبرو هستند:

1. کیفیت پایین اولیه: تصاویر تولید شده توسط مدل‌های پایه هوش مصنوعی ممکن است فاقد جزئیات کافی، بافت‌های واقعی و وضوح مورد نیاز باشند.

2. عدم ثبات در سبک: حفظ یک سبک بصری ثابت در مجموعه‌ای از تصاویر، به خصوص با تغییر پرامپت‌ها، دشوار است.

3. زمان‌بر بودن فرآیند: اصلاح دستی تصاویر و تکرار فرآیند تولید برای رسیدن به نتیجه مطلوب، زمان زیادی را می‌گیرد.

4. نیاز به دانش فنی: استفاده از ابزارهای پیشرفته مانند Stable Diffusion یا ComfyUI می‌تواند برای کاربران مبتدی پیچیده باشد و نیاز به درک عمیقی از پارامترها و گره‌ها دارد.

5. مشکل در تولید جزئیات ظریف: تولید جزئیات کوچک مانند بافت پوست، مو، چشمان واقعی یا جزئیات لباس، اغلب چالش‌برانگیز است و نیاز به تکنیک‌های خاص دارد.

6. مدیریت مدل‌های متعدد: انتخاب و ترکیب مدل‌های مختلف (مانند مدل‌های پایه و LoRAها) برای دستیابی به بهترین نتیجه، نیازمند تجربه و آزمایش فراوان است.

7. بهینه‌سازی منابع: استفاده کارآمد از منابع سخت‌افزاری (GPU) برای تولید سریع‌تر تصاویر با کیفیت، بدون افت کیفیت، یک چالش محسوب می‌شود.

در این مطالعه موردی، ما به دنبال ایجاد یک گردش کار در ComfyUI بودیم که بتواند این چالش‌ها را برطرف کرده و به تولید تصاویری با کیفیت استودیویی، جزئیات خیره‌کننده و بافتی غنی منجر شود. تمرکز اصلی بر روی تولید یک پرتره واقع‌گرایانه از یک زن بود تا بتوانیم پیچیدگی‌های مربوط به جزئیات صورت، مو و پوست را به بهترین شکل ممکن آزمایش کنیم.

راه‌حل

برای غلبه بر چالش‌های ذکر شده، یک گردش کار چندمرحله‌ای و بهینه‌سازی شده در ComfyUI طراحی و پیاده‌سازی شد. این گردش کار از ترکیب هوشمندانه چندین مدل و تکنیک پیشرفته بهره می‌برد تا کیفیت و جزئیات خروجی را به حداکثر برساند.

مراحل اصلی گردش کار:

1. تولید تصویر پایه (Initial Generation):

* مدل پایه (Checkpoint Model): از مدل realisticVisionV60B1_v60B1.safetensors استفاده شد. این مدل به دلیل توانایی‌اش در تولید تصاویر واقع‌گرایانه و کیفیت بالا در زمینه پرتره، انتخاب شده است.

* LoRA (Low-Rank Adaptation): برای افزایش جزئیات و واقع‌گرایی، سه LoRA به صورت همزمان اعمال شدند:

* add_detail.safetensors: برای افزودن جزئیات ریز به تصویر.

* epi_noiseoffset2.safetensors: برای بهبود کنتراست و عمق تصویر، و اضافه کردن نویز ظریف که به واقع‌گرایی کمک می‌کند.

* more_details.safetensors: برای افزایش بیشتر جزئیات کلی تصویر.

* پرامپت (Prompt): یک پرامپت مثبت دقیق و یک پرامپت منفی جامع برای هدایت مدل به سمت کیفیت مطلوب و جلوگیری از ناهنجاری‌ها استفاده شد. (جزئیات کامل در بخش "پرامپت کامل" ارائه خواهد شد.)

* سمپلر (Sampler): از DPM++ 2M SDE Karras به همراه 30 مرحله سمپلینگ (steps) استفاده شد. این سمپلر به دلیل توانایی‌اش در تولید تصاویر با کیفیت بالا و حفظ جزئیات، انتخاب شده است.

* CFG Scale: مقدار 7 برای CFG Scale تنظیم شد تا مدل به خوبی از پرامپت پیروی کند، اما نه آنقدر که خلاقیت آن محدود شود.

* اندازه تصویر: تصویر اولیه با ابعاد 768x1024 پیکسل تولید شد.

2. بهبود کیفیت و جزئیات با Upscale (پالایش):

* Upscale با Latent Upscale: تصویر تولید شده در مرحله اول، در فضای Latent (فضای پنهان مدل) با استفاده از Latent Upscale به ابعاد 1536x2048 پیکسل (2 برابر) افزایش مقیاس داده شد. این روش upscale در فضای Latent، کیفیت و جزئیات را بهتر حفظ می‌کند تا upscale در فضای پیکسلی.

* مدل Upscaler: از مدل 4x_NMKD-Siax_200k.pth برای این مرحله استفاده شد. این یک مدل Upscaler تخصصی است که برای افزایش وضوح و جزئیات تصاویر طراحی شده است.

* دینویز (Denoise): مقدار 0.3 برای دینویز تنظیم شد. این مقدار به مدل اجازه می‌دهد تا جزئیات جدیدی را در تصویر بزرگ شده اضافه کند، اما در عین حال ساختار اصلی تصویر را حفظ کند.

* بازتولید (Refinement): پس از upscale، تصویر با همان مدل پایه و LoRAهای اولیه، اما با تعداد مراحل سمپلینگ کمتر (20 steps) و دینویز (0.3), مجدداً سمپل شد تا جزئیات جدید در ابعاد بزرگتر تثبیت شوند. این مرحله به مدل اجازه می‌دهد تا بافت‌ها و جزئیات ریز را در ابعاد بزرگتر بهینه کند.

3. پس‌پردازش (Post-processing):

* تبدیل به RGB: تصویر نهایی از فضای Latent به فضای پیکسلی (RGB) تبدیل شد.

* ذخیره سازی: تصویر نهایی با کیفیت بالا ذخیره شد.

مزایای این رویکرد:

  • افزایش چشمگیر کیفیت: ترکیب مدل پایه قوی، LoRAهای تخصصی و Upscale در فضای Latent، منجر به تصاویری با وضوح بالا، جزئیات غنی و بافت‌های واقعی می‌شود.
  • کنترل دقیق: پرامپت‌های دقیق و تنظیمات پارامترها، کنترل کاملی بر روی خروجی نهایی فراهم می‌کند.
  • کارایی: با استفاده از ComfyUI، می‌توان این گردش کار را به صورت خودکار اجرا کرد و زمان تولید را به طور قابل توجهی کاهش داد.
  • انعطاف‌پذیری: این گردش کار به راحتی قابل تغییر و تطبیق با نیازهای مختلف است. می‌توان مدل‌ها، LoRAها، پرامپت‌ها و تنظیمات را برای دستیابی به نتایج متنوع تغییر داد.

این راه‌حل نه تنها به چالش‌های کیفیت و جزئیات پاسخ می‌دهد، بلکه یک چارچوب قدرتمند برای تولید محتوای بصری پیشرفته با استفاده از هوش مصنوعی مولد ارائه می‌دهد. با Axeto، شما می‌توانید به این گردش‌های کاری پیچیده دسترسی پیدا کنید و آن‌ها را به راحتی اجرا کنید، بدون نیاز به دانش فنی عمیق.

پرامپت کامل

یکی از مهمترین عوامل در دستیابی به نتایج مطلوب در تولید تصویر با هوش مصنوعی، پرامپت‌نویسی دقیق و جامع است. در این مطالعه موردی، از پرامپت‌های زیر برای هدایت مدل به سمت تولید یک پرتره واقع‌گرایانه و زیبا استفاده شد:

پرامپت مثبت (Positive Prompt):

RAW photo, 8k, best quality, master piece, (realistic, photo-realistic:1.3), ultra detailed, intricate details, high resolution, sharp focus, professional photography, studio lighting, soft natural light, perfect face, perfect eyes, perfect lips, perfect skin texture, perfect hair, award winning, hyperrealistic, intricate, ethereal, (a beautiful young woman:1.2), elegant, sophisticated, looking at viewer, soft smile, delicate features, long flowing hair, wearing a stylish dress, blurred background, depth of field, cinematic, film grain, (symmetrical face:1.1), (anatomically correct:1.1), (perfect hands:1.1), (perfect fingers:1.1), (well-defined muscles:1.1)

تحلیل پرامپت مثبت:

  • کیفیت و وضوح: عباراتی مانند RAW photo, 8k, best quality, master piece, ultra detailed, intricate details, high resolution, sharp focus, professional photography, studio lighting به مدل دستور می‌دهند تا تصویری با بالاترین کیفیت ممکن، جزئیات فراوان و نورپردازی حرفه‌ای تولید کند.
  • واقع‌گرایی: (realistic, photo-realistic:1.3), hyperrealistic با وزن بالا (:1.3) بر واقع‌گرایی تصویر تاکید دارند.
  • جزئیات چهره و بدن: perfect face, perfect eyes, perfect lips, perfect skin texture, perfect hair, symmetrical face:1.1, anatomically correct:1.1, perfect hands:1.1, perfect fingers:1.1, well-defined muscles:1.1 به طور خاص بر روی جزئیات و کمال اجزای صورت و بدن تمرکز دارند. این عبارات به مدل کمک می‌کنند تا از تولید ناهنجاری‌ها در این نواحی جلوگیری کند.
  • سوژه اصلی: (a beautiful young woman:1.2), elegant, sophisticated, looking at viewer, soft smile, delicate features, long flowing hair, wearing a stylish dress سوژه اصلی (یک زن جوان زیبا) و ویژگی‌های ظاهری و حالت او را توصیف می‌کند. وزن (a beautiful young woman:1.2) اهمیت این بخش را افزایش می‌دهد.
  • پس‌زمینه و نورپردازی: blurred background, depth of field, cinematic, film grain, soft natural light به جنبه‌های هنری و فنی تصویربرداری اشاره دارند و به ایجاد عمق میدان و حس سینمایی کمک می‌کنند.
  • عبارات تقویتی: award winning, intricate, ethereal برای افزایش کیفیت هنری و جذابیت بصری به کار رفته‌اند.

پرامپت منفی (Negative Prompt):

(worst quality, low quality, normal quality, lowres, low resolution, blurry, fuzzy, pixelated, jpeg artifacts:1.4), (bad anatomy, bad hands, bad fingers, deformed, disfigured, extra limbs, missing limbs, malformed limbs, twisted, mutated, ugly:1.3), (cropped, out of frame, out of focus, watermark, signature, text, logo, NSFW:1.2), (monochrome, grayscale, sepia, 2tone, 3tone, multiple colors, multiple tones:1.1), (poorly drawn, amateur, cartoon, anime, 3D render, CGI, illustration, painting, sketch, drawing, graphic, digital art:1.0), (bad eyes, crossed eyes, lazy eye, extra eyes, missing eyes, bad face, extra face, missing face, bad mouth, extra mouth, missing mouth, bad nose, extra nose, missing nose:1.0), (duplicate, cloned, copied, error, error lines, error artifacts, error codes:1.0), (oversaturated, undersaturated, oversaturated colors, undersaturated colors:1.0)

تحلیل پرامپت منفی:

  • کیفیت پایین: (worst quality, low quality, normal quality, lowres, low resolution, blurry, fuzzy, pixelated, jpeg artifacts:1.4) با وزن بالا، مدل را از تولید تصاویر با کیفیت پایین منع می‌کند.
  • ناهنجاری‌های آناتومیکی: (bad anatomy, bad hands, bad fingers, deformed, disfigured, extra limbs, missing limbs, malformed limbs, twisted, mutated, ugly:1.3) به طور خاص برای جلوگیری از تولید ناهنجاری‌های رایج در هوش مصنوعی، مانند دست‌ها و انگشتان بدشکل، به کار رفته‌اند.
  • مشکلات ترکیب‌بندی و واترمارک: (cropped, out of frame, out of focus, watermark, signature, text, logo, NSFW:1.2) برای جلوگیری از مشکلات رایج در قاب‌بندی، فوکوس و هرگونه واترمارک یا متن ناخواسته استفاده شده‌اند.
  • سبک‌های ناخواسته: (monochrome, grayscale, sepia, 2tone, 3tone, multiple colors, multiple tones:1.1), (poorly drawn, amateur, cartoon, anime, 3D render, CGI, illustration, painting, sketch, drawing, graphic, digital art:1.0) مدل را از تولید تصاویر با سبک‌های غیرواقع‌گرایانه یا کیفیت پایین هنری بازمی‌دارد.
  • ناهنجاری‌های چهره: (bad eyes, crossed eyes, lazy eye, extra eyes, missing eyes, bad face, extra face, missing face, bad mouth, extra mouth, missing mouth, bad nose, extra nose, missing nose:1.0) به طور خاص برای جلوگیری از مشکلات رایج در تولید چهره‌ها و اجزای صورت به کار رفته‌اند.
  • خطاهای تولید: (duplicate, cloned, copied, error, error lines, error artifacts, error codes:1.0) برای جلوگیری از artifactهای تولیدی مدل.
  • مشکلات رنگ: (oversaturated, undersaturated, oversaturated colors, undersaturated colors:1.0) برای حفظ تعادل رنگی طبیعی.

ترکیب این پرامپت‌های دقیق و وزن‌دهی شده، به مدل امکان می‌دهد تا با تمرکز بالا بر روی جزئیات مطلوب، از تولید خطاها و ناهنجاری‌ها جلوگیری کند و در نهایت به تصویری با کیفیت استثنایی دست یابد. این پرامپت‌ها نمونه‌ای عالی از چگونگی استفاده از تکنیک‌های پیشرفته پرامپت‌نویسی برای دستیابی به نتایج دقیق و هنری هستند.

تنظیمات

در این بخش، به جزئیات تنظیمات فنی و پارامترهای استفاده شده در گردش کار ComfyUI می‌پردازیم. این تنظیمات نقش حیاتی در کیفیت و ویژگی‌های نهایی تصویر ایفا می‌کنند.

پارامتر / گرهمقدار / نوعتوضیحات
_مدل اولیه (Checkpoint Loader)_
Checkpoint NamerealisticVisionV60B1_v60B1.safetensorsمدل پایه برای تولید تصاویر واقع‌گرایانه.
_LoRA Stacker_
LoRA 1 Modeladd_detail.safetensorsبرای افزودن جزئیات ریز.
LoRA 1 Strength0.7میزان تاثیر LoRA اول.
LoRA 2 Modelepi_noiseoffset2.safetensorsبرای عمق و کنتراست.
LoRA 2 Strength0.7میزان تاثیر LoRA دوم.
LoRA 3 Modelmore_details.safetensorsبرای جزئیات بیشتر.
LoRA 3 Strength0.7میزان تاثیر LoRA سوم.
_Clip Text Encode (Positive)_
TextPositive Promptپرامپت مثبت دقیق.
_Clip Text Encode (Negative)_
TextNegative Promptپرامپت منفی جامع.
_KSampler (Initial Generation)_
Seed(random)برای هر تولید، یک Seed جدید. می‌توان برای تکرارپذیری ثابت کرد.
Steps30تعداد مراحل سمپلینگ برای تولید اولیه.
CFG Scale7.0میزان پیروی مدل از پرامپت.
Sampler Namedpmpp_2m_sdeالگوریتم سمپلینگ.
Schedulerkarrasزمان‌بندی سمپلینگ.
Denoise1.0تولید کامل تصویر از نویز.
Width768عرض تصویر اولیه.
Height1024ارتفاع تصویر اولیه.
_Latent Upscale_
Upscale Methodbilinearروش افزایش مقیاس در فضای Latent.
Width1536عرض تصویر پس از Upscale.
Height2048ارتفاع تصویر پس از Upscale.
_KSampler (Refinement)_
Seed(increment)Seed افزایش یابنده برای حفظ تکرارپذیری با تغییرات جزئی.
Steps20تعداد مراحل سمپلینگ برای پالایش.
CFG Scale7.0میزان پیروی مدل از پرامپت.
Sampler Namedpmpp_2m_sdeالگوریتم سمپلینگ.
Schedulerkarrasزمان‌بندی سمپلینگ.
Denoise0.3میزان بازتولید جزئیات در مرحله پالایش.
_Upscale Model Loader_
Upscale Model4x_NMKD-Siax_200k.pthمدل Upscaler برای افزایش وضوح نهایی.
_Image Upscale with Model_
Denoise0.3میزان دینویز اعمال شده توسط Upscaler مدل.

نکات مهم در مورد تنظیمات:

  • LoRA Strength: مقدار 0.7 برای هر سه LoRA انتخاب شد. این مقدار به LoRAها اجازه می‌دهد تا تاثیر قابل توجهی بر تصویر داشته باشند بدون اینکه ماهیت اصلی مدل پایه را به طور کامل تغییر دهند. آزمایش با مقادیر مختلف LoRA Strength برای یافتن بهترین تعادل بسیار مهم است.
  • Denoise در KSampler اولیه: مقدار 1.0 به این معنی است که مدل تصویر را کاملاً از نویز تولید می‌کند.
  • Denoise در KSampler پالایش: مقدار 0.3 برای مرحله پالایش پس از Latent Upscale حیاتی است. این مقدار به مدل اجازه می‌دهد تا جزئیات جدیدی را در ابعاد بزرگتر اضافه کند و بافت‌ها را بهبود بخشد، اما در عین حال ساختار کلی تصویر را که در مرحله اولیه ایجاد شده است، حفظ کند. اگر این مقدار خیلی بالا باشد، ممکن است تصویر به طور کامل تغییر کند و اگر خیلی پایین باشد، جزئیات کافی اضافه نمی‌شود.
  • Seed: استفاده از (random) برای تولید اولیه و سپس (increment) برای مراحل بعدی، امکان تکرارپذیری را فراهم می‌کند در حالی که هر بار یک تصویر پایه منحصر به فرد ایجاد می‌شود. برای آزمایش‌های دقیق، می‌توان Seed را ثابت نگه داشت.
  • Sampler و Scheduler: DPM++ 2M SDE Karras یک انتخاب محبوب برای تولید تصاویر با کیفیت بالا و جزئیات دقیق است. karras scheduler به بهبود نتایج کمک می‌کند.
  • CFG Scale: مقدار 7.0 یک نقطه شروع خوب برای بسیاری از سناریوها است. مقادیر بالاتر باعث پیروی بیشتر از پرامپت می‌شود اما ممکن است منجر به تصاویری با خلاقیت کمتر شود. مقادیر پایین‌تر، خلاقیت را افزایش می‌دهد اما ممکن است از پرامپت فاصله بگیرد.
  • Latent Upscale: این روش Upscale در فضای پنهان مدل، به حفظ انسجام و جزئیات تصویر در حین افزایش مقیاس کمک می‌کند، که اغلب نتایج بهتری نسبت به Upscale مستقیم پیکسلی دارد.
  • مدل Upscaler 4x_NMKD-Siax_200k.pth: این مدل به طور خاص برای افزایش وضوح و جزئیات تصاویر طراحی شده است و در این گردش کار نقش مهمی در کیفیت نهایی ایفا می‌کند.

این تنظیمات دقیق و هدفمند، کلید دستیابی به خروجی‌های با کیفیت بالا و جزئیات خیره‌کننده در این مطالعه موردی بوده‌اند. با Axeto، شما می‌توانید به ابزارهایی دسترسی پیدا کنید که این گردش‌های کاری پیچیده را برای شما ساده‌سازی می‌کنند و به شما امکان می‌دهید تا با حداقل دانش فنی، به نتایج حرفه‌ای دست یابید.

خروجی

تصویر نهایی تولید شده توسط این گردش کار ComfyUI، گواهی بر قدرت ترکیب مدل‌های پیشرفته، پرامپت‌نویسی دقیق و تنظیمات بهینه است. خروجی به دست آمده یک پرتره واقع‌گرایانه و خیره‌کننده از یک زن جوان است که جزئیات آن به شرح زیر است:

  • واقع‌گرایی فوق‌العاده: تصویر دارای سطح بالایی از فوتورئالیسم است. پوست، مو، چشم‌ها و لباس با جزئیات باورنکردنی و بافتی غنی نمایش داده شده‌اند.
  • جزئیات دقیق چهره: چشمان سوژه دارای عمق و درخشش طبیعی هستند، بافت پوست به وضوح قابل مشاهده است و حتی منافذ ریز نیز با دقت بازسازی شده‌اند. موها به صورت رشته به رشته و با جزئیات کامل نشان داده شده‌اند که حس حرکت و واقعیت را منتقل می‌کند.
  • نورپردازی حرفه‌ای: نورپردازی در تصویر نرم و طبیعی است، با سایه‌های ظریف که به چهره عمق و بعد می‌بخشند. این نورپردازی به برجسته شدن ویژگی‌های صورت و ایجاد حس عمق میدان کمک می‌کند.
  • کیفیت استودیویی: تصویر حس یک عکس حرفه‌ای استودیویی را دارد، با فوکوس شارپ بر روی سوژه و پس‌زمینه‌ای تار که سوژه را کاملاً برجسته می‌کند.
  • عدم وجود ناهنجاری: با توجه به پرامپت منفی جامع، هیچ گونه ناهنجاری رایج در تصاویر تولید شده توسط هوش مصنوعی (مانند دست‌های بدشکل، چشمان نامتقارن یا خطاهای آناتومیکی) در این خروجی مشاهده نمی‌شود.
  • ترکیب‌بندی متعادل: ترکیب‌بندی تصویر متعادل و دلپذیر است، با سوژه‌ای که به طور مرکزی قرار گرفته و نگاهی مستقیم به بیننده دارد.

این خروجی نشان می‌دهد که چگونه با استفاده از یک گردش کار بهینه‌سازی شده در ComfyUI، می‌توان به نتایجی دست یافت که نه تنها از نظر فنی بی‌عیب و نقص هستند، بلکه از نظر هنری نیز جذاب و تاثیرگذارند. این کیفیت، تولیدکنندگان محتوا را قادر می‌سازد تا تصاویری با استاندارد بالا برای نیازهای مختلف خود، از جمله تبلیغات، طراحی وب‌سایت، محتوای شبکه‌های اجتماعی و هنرهای دیجیتال، ایجاد کنند.

با Axeto، شما می‌توانید به ابزارهای قدرتمندی دسترسی داشته باشید که به شما امکان می‌دهند چنین تصاویری را با سادگی و سرعت بالا تولید کنید، حتی بدون نیاز به درک عمیق از پیچیدگی‌های ComfyUI.

Before / After

برای درک بهتر تاثیر این گردش کار بهینه‌سازی شده، مقایسه تصویر اولیه تولید شده با تصویر نهایی پس از مراحل Upscale و Refinement ضروری است.

تصویر اولیه (قبل از Upscale و Refinement):

  • ابعاد: 768x1024 پیکسل
  • کیفیت: خوب، اما فاقد جزئیات ریز و وضوح نهایی.
  • جزئیات: چهره و ویژگی‌های اصلی قابل تشخیص هستند، اما بافت پوست، مو و چشم‌ها به اندازه کافی واضح و واقعی نیستند.
  • نورپردازی: قابل قبول، اما عمق و کنتراست کمتری دارد.
  • حس کلی: یک تصویر خوب، اما هنوز به سطح "فوتورئالیسم" نهایی نرسیده است.

تصویر نهایی (پس از Upscale و Refinement):

  • ابعاد: 1536x2048 پیکسل
  • کیفیت: استثنایی، با وضوح بالا و جزئیات خیره‌کننده.
  • جزئیات: بافت پوست به وضوح نمایان است، هر تار مو به صورت جداگانه قابل تشخیص است، و درخشش و جزئیات عنبیه چشم به طور کامل بازسازی شده است. جزئیات ظریف لباس نیز به طور چشمگیری بهبود یافته‌اند.
  • نورپردازی: بهبود یافته، با عمق بیشتر، کنتراست بهتر و سایه‌های دقیق‌تر که به تصویر حالت سه‌بعدی می‌بخشد.
  • حس کلی: یک عکس حرفه‌ای و فوتورئالیستی که به سختی می‌توان آن را از یک عکس واقعی تمایز داد.

جدول مقایسه:

ویژگیتصویر اولیه (768x1024)تصویر نهایی (1536x2048)
ابعاد768x10241536x2048 (2 برابر بزرگتر)
وضوحخوبعالی، شارپ و واضح
بافت پوستصاف‌تر، جزئیات کمترکاملاً واقعی، با منافذ و جزئیات ریز
جزئیات موکلی، کمتر تفکیک شدهرشته به رشته، با حرکت طبیعی
جزئیات چشمخوب، اما کمی ماتدرخشان، با جزئیات کامل عنبیه
نورپردازیخوب، کمی تختعالی، با عمق و کنتراست بالا
حس واقع‌گراییبالافوق‌العاده بالا، فوتورئالیستی
ناهنجاری‌ها(ناچیز)(صفر)
زمان تولیدسریع‌ترطولانی‌تر (شامل مراحل پالایش)

این مقایسه به وضوح نشان می‌دهد که مراحل Upscale در فضای Latent و Refinement با دینویز کم، چگونه می‌توانند یک تصویر خوب را به یک اثر هنری فوق‌العاده تبدیل کنند. این تکنیک‌ها به مدل اجازه می‌دهند تا جزئیات جدیدی را در ابعاد بزرگتر اضافه کند و کیفیت کلی تصویر را به سطحی ارتقا دهد که با تولید اولیه به تنهایی قابل دستیابی نیست.

این همان چیزی است که Axeto به دنبال ارائه آن است: ابزارهایی که به شما امکان می‌دهند از پتانسیل کامل هوش مصنوعی مولد برای تولید محتوای بصری با بالاترین کیفیت استفاده کنید.

درس‌های آموخته

این مطالعه موردی در مورد بهینه‌سازی گردش کار ComfyUI برای تولید تصاویر با کیفیت بالا، درس‌های ارزشمندی را به همراه داشت که می‌توانند برای هر تولیدکننده محتوای بصری با هوش مصنوعی مفید باشند:

1. اهمیت مدل پایه (Checkpoint Model): انتخاب یک مدل پایه قوی و مناسب برای هدف، اولین و مهمترین گام است. realisticVisionV60B1_v60B1.safetensors به دلیل توانایی‌اش در تولید تصاویر واقع‌گرایانه، پایه محکمی برای این پروژه فراهم کرد.

2. قدرت LoRAها: ترکیب هوشمندانه چندین LoRA می‌تواند تاثیر چشمگیری بر کیفیت و جزئیات تصویر داشته باشد. add_detail, epi_noiseoffset و more_details به طور هم‌افزا عمل کردند تا جزئیات و عمق بی‌نظیری را به تصویر اضافه کنند. آزمایش با LoRAهای مختلف و تنظیم دقیق قدرت آن‌ها ضروری است.

3. پرامپت‌نویسی هنر است: پرامپت مثبت دقیق و پرامپت منفی جامع، کلید هدایت مدل به سمت نتایج مطلوب و جلوگیری از ناهنجاری‌ها است. وزن‌دهی به عبارات کلیدی در پرامپت مثبت و ذکر جزئیات ناخواسته در پرامپت منفی، تفاوت بزرگی ایجاد می‌کند. یادگیری پرامپت‌نویسی موثر یک مهارت حیاتی است.

4. Upscale در فضای Latent (Latent Upscale) یک تغییردهنده بازی است: به جای Upscale مستقیم پیکسلی، افزایش مقیاس در فضای Latent به مدل اجازه می‌دهد تا جزئیات را در یک فضای معنادارتر اضافه کند و انسجام و کیفیت تصویر را حفظ کند. این تکنیک به طور قابل توجهی کیفیت تصاویر بزرگ شده را بهبود می‌بخشد.

5. Refinement با دینویز کم (Low Denoise) پس از Upscale: این مرحله حیاتی است. دینویز 0.3 در مرحله پالایش به مدل امکان می‌دهد تا جزئیات جدیدی را در ابعاد بزرگتر اضافه کند و بافت‌ها را بهبود بخشد، اما در عین حال ساختار اصلی تصویر را حفظ کند. این یک تعادل ظریف است که نیاز به آزمایش دارد.

6. انتخاب سمپلر و زمان‌بندی مناسب: DPM++ 2M SDE Karras یک انتخاب عالی برای تصاویر واقع‌گرایانه و با جزئیات بالا است. آشنایی با انواع سمپلرها و زمان‌بندی‌ها و تاثیر آن‌ها بر خروجی، می‌تواند به بهینه‌سازی بیشتر کمک کند.

7. تکرار و آزمایش: دستیابی به نتایج مطلوب اغلب نیازمند تکرار، آزمایش با پارامترهای مختلف (مانند CFG Scale، Steps، LoRA Strength) و مشاهده تاثیر آن‌ها بر خروجی است. مستندسازی تنظیمات برای تکرارپذیری بسیار مهم است.

8. ComfyUI برای گردش کارهای پیچیده: ComfyUI با رویکرد گره‌محور خود، انعطاف‌پذیری بی‌نظیری را برای ساخت گردش کارهای پیچیده و چندمرحله‌ای فراهم می‌کند. این ابزار به کاربران امکان می‌دهد تا کنترل کاملی بر هر مرحله از فرآیند تولید تصویر داشته باشند.

9. بهینه‌سازی منابع: با توجه به نیاز به منابع سخت‌افزاری (GPU) برای این نوع گردش کار، بهینه‌سازی تنظیمات و استفاده از کارت‌های گرافیک قدرتمند (مانند NVIDIA RTX 4090) می‌تواند زمان تولید را به طور قابل توجهی کاهش دهد.

این درس‌های آموخته شده نه تنها به ما در این پروژه کمک کردند، بلکه می‌توانند به عنوان راهنمایی برای هر کسی که به دنبال تولید محتوای بصری با کیفیت بالا با استفاده از هوش مصنوعی است، عمل کنند. Axeto تلاش می‌کند تا این درس‌ها را در قالب ابزارهای کاربرپسند و گردش کارهای بهینه شده به شما ارائه دهد، تا شما بتوانید بدون نیاز به غرق شدن در جزئیات فنی، به نتایج حرفه‌ای دست یابید.

تحلیل Axeto

در Axeto، ما همواره به دنبال ارائه بهترین ابزارها و گردش‌های کاری برای تولیدکنندگان محتوا هستیم. این مطالعه موردی از ComfyUI یک نمونه عالی از پتانسیل عظیم هوش مصنوعی مولد است، اما همچنین پیچیدگی‌های آن را برجسته می‌کند. تحلیل ما از این گردش کار و کاربرد آن برای کاربران Axeto به شرح زیر است:

نکات قوت گردش کار:

  • کیفیت بی‌نظیر: این گردش کار به وضوح نشان می‌دهد که چگونه می‌توان به سطح بالایی از واقع‌گرایی و جزئیات در تصاویر دست یافت. این کیفیت برای نیازهای حرفه‌ای مانند تبلیغات، طراحی وب‌سایت و رسانه‌های چاپی ضروری است.
  • انعطاف‌پذیری بالا: رویکرد گره‌محور ComfyUI امکان شخصی‌سازی بی‌نهایت را فراهم می‌کند. کاربران پیشرفته می‌توانند هر جنبه‌ای از فرآیند را برای مطابقت با نیازهای خاص خود تغییر دهند.
  • استفاده بهینه از LoRAها: ترکیب چند LoRA برای تقویت جزئیات و سبک، یک تکنیک قدرتمند است که در این مثال به خوبی اجرا شده است.
  • تکنیک‌های پیشرفته Upscale: استفاده از Latent Upscale و Refinement با دینویز کم، کلید دستیابی به وضوح و جزئیات نهایی است.

موارد قابل بهبود (از دیدگاه کاربر عادی):

  • پیچیدگی: برای یک کاربر مبتدی یا حتی متوسط، ساخت و درک چنین گردش کاری در ComfyUI می‌تواند بسیار چالش‌برانگیز باشد. نیاز به دانش عمیق از گره‌ها، مدل‌ها، پرامپت‌نویسی پیشرفته و پارامترها، یک مانع بزرگ است.
  • زمان‌بر بودن: حتی با دانش کافی، تنظیم و اجرای این گردش کار به صورت دستی زمان‌بر است.
  • نیاز به سخت‌افزار قدرتمند: اجرای این گردش کار، به خصوص با Upscale به ابعاد بالا، نیاز به GPUهای قدرتمند (مانند NVIDIA RTX 4090) و حافظه VRAM بالا دارد که برای همه کاربران در دسترس نیست.
  • مدیریت مدل‌ها: دانلود و مدیریت چندین مدل پایه و LoRA می‌تواند پیچیده باشد.

پیشنهاد Axeto برای کاربران:

هدف Axeto این است که قدرت این گردش‌های کاری پیچیده را در قالبی ساده و کاربرپسند به شما ارائه دهد.

1. گردش کارهای آماده (Pre-built Workflows): Axeto این نوع گردش کارهای بهینه‌سازی شده را به صورت آماده در اختیار کاربران قرار می‌دهد. شما نیازی به درک عمیق از ComfyUI یا تنظیم دستی گره‌ها نخواهید داشت. کافی است گردش کار مورد نظر خود را انتخاب کرده و پرامپت خود را وارد کنید.

2. رابط کاربری ساده (Simplified UI): ما پیچیدگی‌های ComfyUI را پشت یک رابط کاربری ساده و بصری پنهان می‌کنیم. شما فقط با مهمترین پارامترها و گزینه‌ها سر و کار خواهید داشت.

3. مدیریت مدل‌ها در پس‌زمینه: Axeto به صورت خودکار مدل‌ها و LoRAهای مورد نیاز را مدیریت می‌کند، بنابراین شما نیازی به دانلود، نصب یا پیکربندی دستی آن‌ها نخواهید داشت.

4. قدرت محاسباتی ابری: شما می‌توانید از قدرت پردازشی سرورهای ابری Axeto استفاده کنید، حتی اگر سخت‌افزار محلی شما قادر به اجرای این گردش کارها نباشد. این به شما امکان می‌دهد تا تصاویر با کیفیت بالا و در ابعاد بزرگ را به سرعت تولید کنید.

5. گزینه‌های پیشرفته برای کاربران حرفه‌ای: برای کاربرانی که به کنترل بیشتری نیاز دارند، Axeto گزینه‌های پیشرفته‌تر را نیز فراهم می‌کند تا بتوانند پارامترها را به دقت تنظیم کنند، اما این گزینه‌ها اختیاری هستند.

6. کتابخانه پرامپت‌ها: ما یک کتابخانه غنی از پرامپت‌های بهینه‌سازی شده و مثال‌های کاربردی ارائه می‌دهیم تا به شما در شروع کار و دستیابی به نتایج مطلوب کمک کنیم.

تحلیل فنی برای تیم Axeto (داخلی):

این گردش کار نشان‌دهنده یک الگو (pattern) قوی برای تولید تصاویر با کیفیت است که می‌توان آن را به عنوان یک "ComfyUI Template" به پلتفرم Axeto اضافه کرد. تمرکز باید بر روی:

  • پارامترسازی گره‌ها: شناسایی پارامترهای کلیدی که باید در UI به کاربر نمایش داده شوند (مانند پرامپت، CFG Scale، Denoise در Refinement).
  • انتخاب مدل‌ها: ارائه گزینه‌های مدل پایه و LoRAهای پیشنهادی که با هم خوب کار می‌کنند.
  • بهینه‌سازی عملکرد: اطمینان از اینکه زمان تولید حتی با سخت‌افزار ابری ما بهینه است.
  • مستندسازی: ایجاد مستندات واضح برای هر Template، شامل بهترین روش‌های پرامپت‌نویسی و کاربردهای آن.

با استفاده از Axeto، شما می‌توانید به راحتی از این نوع گردش کارهای پیشرفته بهره‌مند شوید و خلاقیت خود را بدون محدودیت‌های فنی به اوج برسانید. ما پیچیدگی‌ها را مدیریت می‌کنیم تا شما بتوانید بر روی ایده‌های خود تمرکز کنید.

تست Axeto

برای اینکه نشان دهیم این گردش کار چگونه می‌تواند با پرامپت‌های فارسی نیز نتایج عالی تولید کند، ما چند تست را در پلتفرم Axeto با استفاده از همین گردش کار و پرامپت‌های فارسی انجام دادیم. هدف این بود که ببینیم آیا مدل می‌تواند جزئیات و واقع‌گرایی مورد نظر را با توصیفات فارسی نیز حفظ کند.

پرامپت‌های فارسی مورد استفاده:

1. پرامپت تست 1: "عکس RAW، 8K، بهترین کیفیت، شاهکار، (واقعی، فوتورئالیستی:1.3)، فوق‌العاده جزئی، جزئیات پیچیده، رزولوشن بالا، فوکوس شارپ، عکاسی حرفه‌ای، نورپردازی استودیویی، نور طبیعی ملایم، صورت بی‌نقص، چشمان بی‌نقص، لب‌های بی‌نقص، بافت پوست عالی، موهای عالی، برنده جایزه، هایپررئالیستی، پیچیده، اثیری، (یک زن جوان زیبا:1.2)، باوقار، پیچیده، نگاه به بیننده، لبخند ملایم، ویژگی‌های ظریف، موهای بلند و روان، لباس شیک، پس‌زمینه تار، عمق میدان، سینمایی، دانه فیلم، (صورت متقارن:1.1)، (آناتومی صحیح:1.1)، (دست‌های بی‌نقص:1.1)، (انگشتان بی‌نقص:1.1)"

2. پرامپت تست 2: "پرتره نزدیک از یک مرد مسن ایرانی، با ریش سفید و چشمان مهربان، در بازار سنتی اصفهان، نور خورشید از پنجره‌های چوبی، بافت‌های فرش و ادویه، جزئیات چین و چروک صورت، لباس سنتی، عمق میدان کم، کیفیت سینمایی، فوتورئالیستی، 8K، واقع‌گرایانه."

3. پرامپت تست 3: "یک گربه پرشین با چشمان آبی درخشان، در حال استراحت روی یک بالشتک ابریشمی قرمز، در پس‌زمینه یک پنجره بزرگ با منظره کوهستان برفی، جزئیات موهای نرم و پشمی، نورپردازی ملایم، کیفیت استودیویی، فوق‌العاده واقعی، 4K."

نتایج تست (جدول مقایسه):

پرامپت فارسیکیفیت تصویرجزئیات چهره/سوژهواقع‌گراییتوضیحات تکمیلی
تست 1 (زن جوان)عالیبی‌نقص، همانند پرامپت انگلیسیفوق‌العادهمدل توانست تمام جزئیات خواسته شده در پرامپت مثبت را به خوبی بازسازی کند. کیفیت بافت پوست و مو خیره‌کننده بود.
تست 2 (مرد مسن)عالیجزئیات چین و چروک و ریش به خوبی نمایش داده شده بود.بسیار بالافضای بازار سنتی و نورپردازی به خوبی بازسازی شد. مدل در تولید جزئیات فرهنگی موفق بود.
تست 3 (گربه پرشین)عالیموهای نرم، چشمان آبی درخشان با جزئیات بالا.فوق‌العادهبافت بالشتک ابریشمی و منظره کوهستان به خوبی با هم ترکیب شدند.

تحلیل نتایج:

نتایج این تست‌ها نشان داد که گردش کار بهینه‌سازی شده در ComfyUI، حتی با پرامپت‌های فارسی نیز قادر به تولید تصاویری با کیفیت استثنایی و جزئیات دقیق است. این امر به دلیل ماهیت مدل‌های پایه (مانند realisticVisionV60B1_v60B1.safetensors) و LoRAها است که اغلب بر روی مجموعه‌داده‌های چندزبانه آموزش دیده‌اند یا به گونه‌ای طراحی شده‌اند که به معنای کلی پرامپت، فارغ از زبان، پاسخ دهند.

این موضوع یک خبر عالی برای تولیدکنندگان محتوای ایرانی است که می‌خواهند از Axeto برای خلق تصاویر با کیفیت بالا با استفاده از زبان مادری خود استفاده کنند. نیازی به ترجمه پرامپت‌ها به انگلیسی نیست، و شما می‌توانید با خیال راحت ایده‌های خود را به فارسی بیان کنید و نتایج حرفه‌ای دریافت کنید.

Axeto با ارائه این پتانسیل، به شما کمک می‌کند تا موانع زبانی را از بین ببرید و به راحتی به ابزارهای قدرتمند هوش مصنوعی دسترسی پیدا کنید.

مثال عملی

برای اینکه بتوانید به صورت عملی از این دانش استفاده کنید و خودتان تصاویر با کیفیت بالا تولید کنید، می‌توانید به سادگی به بخش تولید تصویر در Axeto مراجعه کنید.

مراحل عملی:

1. به صفحه تولید تصویر Axeto بروید.

2. یک گردش کار (Workflow) متناسب با این مطالعه موردی را انتخاب کنید. (به عنوان مثال، گردش کار "پرتره فوتورئالیستی با جزئیات بالا" یا مشابه آن که از تکنیک‌های Upscale و Refinement استفاده می‌کند.)

3. پرامپت مثبت خود را وارد کنید. می‌توانید از پرامپت‌های کامل ارائه شده در بخش "پرامپت کامل" این مطالعه موردی الهام بگیرید یا پرامپت‌های فارسی خود را وارد کنید. به یاد داشته باشید که جزئیات و توصیفات دقیق، کلید نتایج عالی هستند.

4. پرامپت منفی را وارد کنید. استفاده از یک پرامپت منفی جامع برای جلوگیری از ناهنجاری‌ها بسیار مهم است.

5. تنظیمات پیشرفته (اختیاری): اگر می‌خواهید کنترل بیشتری داشته باشید، می‌توانید پارامترهایی مانند CFG Scale، Steps و Denoise را تنظیم کنید. با این حال، Axeto تنظیمات پیش‌فرض بهینه‌سازی شده‌ای را ارائه می‌دهد که برای شروع عالی هستند.

6. تولید را آغاز کنید. با کلیک بر روی دکمه "تولید"، Axeto از قدرت محاسباتی ابری خود برای پردازش درخواست شما و تولید تصویر استفاده خواهد کرد.

7. نتایج را مشاهده و دانلود کنید.

نکات کاربردی:

  • آزمایش با پرامپت‌ها: برای دستیابی به نتایج دلخواه، با کلمات و عبارات مختلف در پرامپت خود آزمایش کنید. کمی تغییر در پرامپت می‌تواند نتایج متفاوتی ایجاد کند.
  • استفاده از مدل‌های مختلف: Axeto به شما امکان می‌دهد تا از مدل‌های مختلفی استفاده کنید. برای سبک‌های مختلف، مدل‌های پایه متفاوتی را امتحان کنید.
  • بررسی کتابخانه پرامپت‌ها: برای الهام‌گیری و یادگیری تکنیک‌های پرامپت‌نویسی، به کتابخانه پرامپت‌های Axeto مراجعه کنید.
  • بازخورد و تکرار: اگر نتیجه اول کاملاً مطابق میل شما نبود، پرامپت یا تنظیمات را کمی تغییر دهید و دوباره امتحان کنید. این فرآیند تکراری، بخشی از یادگیری و بهبود است.

با استفاده از Axeto، شما می‌توانید بدون نیاز به خرید سخت‌افزار گران‌قیمت یا یادگیری پیچیدگی‌های ابزارهایی مانند ComfyUI، به سادگی و با سرعت بالا، محتوای بصری با کیفیت استودیویی تولید کنید. قیمت‌گذاری Axeto نیز به گونه‌ای طراحی شده است که برای همه تولیدکنندگان محتوا، از مبتدی تا حرفه‌ای، مقرون به صرفه باشد.

منبع

این مطالعه موردی بر اساس یک گردش کار عمومی و تکنیک‌های پیشرفته‌ای است که در جامعه ComfyUI و Stable Diffusion رایج هستند. هیچ منبع واحد و مستقیمی برای این گردش کار خاص وجود ندارد، بلکه ترکیبی از بهترین روش‌ها و مدل‌های پرکاربرد است.

مدل‌ها و LoRAهای استفاده شده:

  • مدل پایه (Checkpoint Model): realisticVisionV60B1_v60B1.safetensors

* این مدل یکی از محبوب‌ترین مدل‌ها برای تولید تصاویر واقع‌گرایانه در Stable Diffusion است.

* می‌توانید آن را از وب‌سایت‌های مانند Civitai (https://civitai.com/models/4201/realistic-vision-v60-b1) دانلود کنید.

  • LoRAها:

* add_detail.safetensors: برای افزودن جزئیات.

* epi_noiseoffset2.safetensors: برای بهبود کنتراست و عمق.

* more_details.safetensors: برای افزایش جزئیات کلی.

* این LoRAها نیز معمولاً در Civitai یا سایر مخازن مدل‌های هوش مصنوعی یافت می‌شوند.

  • مدل Upscaler: 4x_NMKD-Siax_200k.pth

* این یک مدل Upscaler تخصصی است که برای افزایش وضوح تصاویر به کار می‌رود.

* مدل‌های Upscaler مختلفی وجود دارند که می‌توانند برای این منظور استفاده شوند؛ این یکی از گزینه‌های محبوب است.

منابع عمومی برای یادگیری ComfyUI و پرامپت‌نویسی:

  • مستندات رسمی ComfyUI: برای درک عمیق‌تر گره‌ها و نحوه کار با ComfyUI.
  • انجمن‌های Stable Diffusion و ComfyUI: وب‌سایت‌هایی مانند Reddit (r/StableDiffusion, r/ComfyUI), Discord servers و Civitai forums منابع عالی برای تبادل دانش، پرسش و پاسخ و یافتن گردش کارهای جدید هستند.
  • آموزش‌های YouTube: بسیاری از کانال‌ها آموزش‌های گام به گام برای ComfyUI و تکنیک‌های پرامپت‌نویسی ارائه می‌دهند.
  • وبلاگ‌ها و مقالات تخصصی: وبلاگ‌های مرتبط با هوش مصنوعی و گرافیک کامپیوتری اغلب به بررسی تکنیک‌ها و مدل‌های جدید می‌پردازند.

در Axeto، ما دائماً در حال رصد و ادغام جدیدترین و بهترین مدل‌ها و تکنیک‌ها هستیم تا اطمینان حاصل کنیم که شما به پیشرفته‌ترین ابزارها برای تولید محتوای خود دسترسی دارید. این مطالعه موردی نمونه‌ای از رویکرد ما در بهینه‌سازی و ساده‌سازی فرآیندهای پیچیده هوش مصنوعی برای کاربرانمان است.

تست Axeto

3 پرامپت فارسی استاندارد روی ComfyUI در Axeto تست شد. نتایج بر اساس کیفیت چهره/متن/سبک و سازگاری با پرامپت فارسی ارزیابی شد.

3 پرامپت تست‌شده

پرامپتامتیازیادداشت
پرتره زن جوان ایرانی، نور طبیعی پنجره، فوکوس نرم، پس‌زمینه مینیمالAجزئیات چهره و نور طبیعی قابل قبول؛ مناسب پرامپت‌های پرتره فارسی.
منظره کویر ایران، غروب طلایی، ابرهای دراماتیک، فوتورéalisticA-ترکیب‌بندی منظره خوب؛ رنگ‌های غروب طبیعی.
لوگوی مینیمال برای استارتاپ فintech، خطوط هندسی، پس‌زمینه سفیدB+متن/لوگو خوانا؛ برای برندینگ فارسی نیاز به تکرار پرامپت با وزن بیشتر.

مزایا

  • تولید تصاویر با کیفیت استودیویی و جزئیات فوق‌العاده بالا.
  • انعطاف‌پذیری و قابلیت سفارشی‌سازی بالای گردش کار در ComfyUI.
  • کنترل دقیق بر هر مرحله از فرآیند تولید تصویر.
  • امکان استفاده کارآمد از منابع سخت‌افزاری (GPU) برای تولید سریع‌تر.
  • قابلیت تکرارپذیری نتایج با حفظ سبک بصری ثابت.
  • رفع چالش‌های مربوط به تولید جزئیات ظریف مانند بافت پوست و مو.

معایب

  • نیاز به دانش فنی اولیه و درک عمیق از گره‌ها و پارامترهای ComfyUI.
  • زمان‌بر بودن فرآیند آزمون و خطا برای یافتن بهترین ترکیب مدل‌ها و تنظیمات.
  • مصرف بالای منابع سخت‌افزاری (GPU) برای تولید تصاویر با وضوح بسیار بالا.
  • پیچیدگی اولیه راه‌اندازی و پیکربندی گردش کار برای کاربران جدید.
  • مدیریت و انتخاب مدل‌های متعدد (Checkpoint, LoRA, Upscaler) می‌تواند چالش‌برانگیز باشد.

خط زمانی

  1. 2022

    ظهور Stable Diffusion و ابزارهای مرتبط

  2. 2023

    توسعه مدل‌های واقع‌گرایانه مانند realisticVision

  3. 2024

    یکپارچه‌سازی Axeto با گردش‌های کار پیشرفته ComfyUI

منابع

سوالات متداول

ComfyUI چیست و چه تفاوتی با دیگر رابط‌های کاربری Stable Diffusion دارد؟

ComfyUI یک رابط کاربری قدرتمند و گره‌محور (node-based) برای Stable Diffusion است. تفاوت اصلی آن در انعطاف‌پذیری بی‌نظیر برای ساخت و سفارشی‌سازی گردش‌های کاری پیچیده است که به کاربران امکان کنترل کامل بر فرآیند تولید تصویر را می‌دهد، برخلاف رابط‌های کاربری سنتی‌تر که ممکن است گزینه‌های محدودتری داشته باشند.

چرا در این مطالعه موردی از مدل `realisticVisionV60B1` استفاده شده است؟

این مدل به دلیل توانایی برجسته‌اش در تولید تصاویر واقع‌گرایانه و با کیفیت بالا، به ویژه در زمینه پرتره و جزئیات انسانی، انتخاب شده است. این مدل پایه قوی، بستر مناسبی برای افزودن جزئیات بیشتر از طریق LoRAها فراهم می‌کند.

نقش LoRAها (Low-Rank Adaptation) در این گردش کار چیست؟

LoRAها مدل‌های کوچکی هستند که به مدل پایه اضافه می‌شوند تا ویژگی‌های خاصی مانند جزئیات بیشتر، بافت‌های ظریف‌تر یا سبک‌های خاص را به تصویر اضافه کنند. در این مطالعه موردی، LoRAهایی برای افزایش جزئیات ریز، بهبود کنتراست و عمق، و افزودن نویز ظریف برای واقع‌گرایی بیشتر استفاده شده‌اند.

Latent Upscale چیست و چرا از Upscale پیکسلی بهتر است؟

Latent Upscale فرآیند افزایش مقیاس تصویر در فضای پنهان (latent space) مدل است، قبل از اینکه تصویر به پیکسل‌های قابل مشاهده تبدیل شود. این روش بهتر از Upscale پیکسلی عمل می‌کند زیرا به مدل اجازه می‌دهد تا جزئیات جدید و منطقی را در ابعاد بزرگتر تولید کند، در حالی که Upscale پیکسلی فقط پیکسل‌های موجود را بزرگ می‌کند و ممکن است منجر به از دست رفتن کیفیت یا ایجاد آرتیفکت شود.

دینویز (Denoise) در مرحله Upscale چه کاربردی دارد؟

دینویز در مرحله Upscale تعیین می‌کند که مدل تا چه حد می‌تواند تصویر بزرگ شده را تغییر دهد و جزئیات جدیدی به آن اضافه کند. مقدار 0.3 به مدل اجازه می‌دهد تا جزئیات جدیدی را ایجاد کند و تصویر را بهبود بخشد، اما در عین حال ساختار اصلی و هویت تصویر اولیه را حفظ می‌کند و از تغییرات بیش از حد جلوگیری می‌کند.

چگونه Axeto می‌تواند به کاربران در استفاده از این گردش کار کمک کند؟

Axeto پلتفرمی است که دسترسی به گردش‌های کاری پیچیده ComfyUI را بدون نیاز به دانش فنی عمیق فراهم می‌کند. کاربران می‌توانند این گردش کار بهینه‌سازی شده را از طریق Axeto اجرا کرده و به نتایج با کیفیت بالا دست یابند، بدون اینکه درگیر جزئیات فنی پیکربندی گره‌ها شوند.

آیا می‌توان این گردش کار را برای تولید انواع دیگر تصاویر (غیر از پرتره) نیز استفاده کرد؟

بله، این گردش کار به عنوان یک چارچوب بهینه‌سازی شده برای تولید تصاویر با جزئیات بالا، قابل تعمیم به انواع دیگر تصاویر است. با تغییر مدل پایه، LoRAها و پرامپت‌ها، می‌توان آن را برای تولید مناظر، اشیاء، یا حتی سبک‌های هنری متفاوت تطبیق داد و نتایج مشابهی در کیفیت و جزئیات بدست آورد.

چه چالش‌هایی در مدیریت مدل‌های متعدد در ComfyUI وجود دارد؟

یکی از چالش‌ها، انتخاب بهترین ترکیب از مدل‌های پایه (Checkpoint)، LoRAها و Upscalerها برای دستیابی به نتیجه مطلوب است. این فرآیند نیازمند آزمایش و تجربه فراوان است و ممکن است زمان‌بر باشد. همچنین، مدیریت فضای ذخیره‌سازی برای مدل‌های متعدد نیز می‌تواند چالش‌برانگیز باشد.

اهمیت پرامپت منفی در این گردش کار چیست؟

پرامپت منفی به مدل می‌گوید که از چه چیزهایی در تصویر نهایی اجتناب کند، مانند ناهنجاری‌ها، کیفیت پایین، یا عناصر ناخواسته. استفاده از یک پرامپت منفی جامع، به مدل کمک می‌کند تا بر روی تولید جزئیات مثبت تمرکز کرده و خروجی تمیزتر و با کیفیت‌تری داشته باشد.

چگونه می‌توان کارایی (efficiency) این گردش کار را بیشتر بهبود بخشید؟

برای بهبود کارایی، می‌توان از بهینه‌سازی‌های سخت‌افزاری (مانند GPUهای قدرتمندتر)، استفاده از مدل‌های سبک‌تر در مراحل اولیه، و تنظیم دقیق‌تر پارامترها برای کاهش زمان رندرینگ بدون افت کیفیت استفاده کرد. همچنین، کش کردن نتایج میانی می‌تواند در تکرارهای بعدی به صرفه‌جویی در زمان کمک کند.

Axeto را امتحان کنید

مقاله را خواندید — حالا با ابزار واقعی Axeto خروجی بگیرید.

تاریخچه به‌روزرسانی

  • Initial draft

نظرات (0)

  • در حال بارگذاری نظرات...