Вы когда-нибудь задумывались о значении таких параметров, как шкала CFG, seed (семя-зерно) или отрицательная подсказка?
Вы пришли в нужное место. В этом руководстве мы дадим вам наиболее полное объяснение каждого параметра с наглядными примерами. Вы можете подумать, что уже все знаете, но мы гарантируем, что вы узнаете что-то новое. Давайте приступим и вместе раскроем весь потенциал Stable Diffusion с помощью этих параметров.
Отрицательный запрос
Это очень мощная, но малоиспользуемая функция стабильной диффузии, и она может помочь вам в достижении результатов, для достижения которых потребовалось бы гораздо больше времени, просто настроив позитивную подсказку.
Мы знаем, что может быть сложно получить отрицательные подсказки, поэтому у нас есть предварительно подготовленные отрицательные подсказки на https://openart.ai/create чтобы вам было легче выбирать, вот несколько примеров, демонстрирующих их эффекты.
Общие негативные подсказки
ENG – lowres, error, cropped, worst quality, low quality, jpeg artifacts, out of frame, watermark, signature.
RUS – низкие значения, ошибка, обрезка, худшее качество, низкое качество, артефакты jpeg, вне кадра, водяной знак, подпись.
Негативные подсказки для портретов людей
ENG – deformed, ugly, mutilated, disfigured, text, extra limbs, face cut, head cut, extra fingers, extra arms, poorly drawn face, mutation, bad proportions, cropped head, malformed limbs, mutated hands, fused fingers, long neck
RUS – деформированный, уродливый, искалеченный, изуродованный текст, лишние конечности, порез лица, головы, лишние пальцы, дополнительные руки, плохо нарисованное лицо, мутация, плохие пропорции, обрезанная голова, деформированные конечности, мутировавшие руки, сросшиеся пальцы, длинная шея
Негативные подсказки для фотореалистичных изображений
ENG – Photorealistic: illustration, painting, drawing, art, sketch
RUS – Фотореалистичные: иллюстрация, живопись, рисунок, арт, эскиз
Шаги
Вот общее руководство о том, какое количество шагов следует использовать в разных случаях:
- Если вы тестируете новую подсказку и хотите получить быстрые результаты, чтобы подкорректировать свой ввод, используйте 10-15 шагов.
- Когда вы найдете подсказку, которая вам нравится, увеличьте количество шагов до 25.
- Если вы создаете лицо, животное с мехом или любой предмет с детальной текстурой, и вам кажется, что сгенерированным изображениям не хватает некоторых деталей, попробуйте увеличить шаг до 40!
Некоторые люди привыкли создавать изображения со 100 или 150 шагами, это было полезно для таких сэмплеров, как LMS, но теперь это, как правило, больше не нужно с улучшенными быстрыми сэмплерами, такими как DDIM и DPM Solver++, используя большое количество шагов с этими сэмплерами, вы, вероятно, будете тратить свое время и мощность GPU, без какого-либо увеличения качества изображения.
Сэмплы
Проще говоря, эти сэмплеры – алгоритмы, которые берут сгенерированное изображение после каждого шага и сравнивают его с тем, что было запрошено в текстовой подсказке, а затем добавляют несколько изменений в шум, пока постепенно не достигнут изображения, соответствующего текстовому описанию.
На OpenArt мы реализовали три наиболее используемых пользователями семплера: Euler A, DDIM и DPM Solver++. Вы можете попробовать все три и посмотреть, что больше подходит для ваших целей, так как нет правила, какой семплер использовать, но эти три очень быстрые и способны дать согласованные результаты за 15-25 шагов.
Есть только одно заметное различие между сэмплером Euler a и двумя другими, которое стоит упомянуть. В сравнении на фото ниже вы можете увидеть, что результаты Euler a – по сравнению с DPM Solver++ – имеют более гладкие цвета с менее четкими краями, что придает им более “мечтательный” вид, поэтому используйте Euler a, если вы предпочитаете такой эффект в создаваемых изображениях.
Шкала руководства CFG
По умолчанию в OpenArt используется CFG 7, что обеспечивает оптимальный баланс между креативностью и созданием того, что вы хотите. Ниже 5 обычно не рекомендуется, так как изображения могут начать больше походить на галлюцинации искусственного интеллекта, а выше 16 могут появиться изображения с уродливыми артефактами.
Когда же использовать различные значения шкалы CFG?
Шкала CFG может быть разделена на различные диапазоны, каждый из которых подходит для различных типов подсказок и целей
- CFG 2 – 6: Креативно, но может быть слишком искажено и не соответствовать подсказке. Может быть забавным и полезным для коротких подсказок
- CFG 7 – 10: Рекомендуется для большинства подсказок. Хороший баланс между творчеством и направленным генерированием
- CFG 10 – 15: Когда вы уверены, что ваша подсказка подробна и очень четко определяет, как должно выглядеть изображение.
- CFG 16 – 20: Не рекомендуется, если только подсказка не очень подробная. Может повлиять на согласованность и качество
- CFG >20: почти никогда не используется
Семя (зерно)
Поскольку одно и то же сочетание семян и подсказок каждый раз дает один и тот же образ, мы можем использовать это свойство в своих интересах множеством способов:
- управлять конкретными чертами персонажа: в данном примере мы изменили эмоцию, но это может работать и для других физических характеристик, таких как цвет волос или кожи, но чем меньше изменение, тем больше вероятность того, что оно будет работать.
- Проверка влияния конкретных слов: Если вам интересно, что меняет конкретное слово в подсказке, вы можете использовать то же семя с измененной подсказкой, чтобы проверить это. Хорошей практикой является тестирование подсказок таким образом, каждый раз изменяя одно слово или фразу
- Изменить стиль: Если вам нравится композиция изображения, но интересно, как оно будет выглядеть в другом стиле. Это можно использовать для портретов, пейзажей или любых сцен, которые вы создаете.
Параметры IMG2IMG
Функция Img2img работает точно так же, как и txt2img, с той лишь разницей, что вы предоставляете изображение, которое будет использоваться в качестве отправной точки вместо шума, генерируемого номером семени.
Количество добавляемого шума зависит от параметра “Strength of img2img”, который варьируется от 0 до 1, где 0 не добавляет никакого шума вообще, и вы получите именно то изображение, которое добавили, а 1 полностью заменяет изображение шумом и почти действует так, как если бы вы использовали обычный txt2img вместо img2img.
Как же решить, какую силу использовать? Вот простое руководство с примерами:
- Для создания вариаций изображения рекомендуется использовать силу 0,5-0,75 и с тем же подсказкой. Это может быть полезно, когда вам нравится композиция созданного изображения, но некоторые детали выглядят недостаточно хорошо, или вы хотите создать изображения, похожие на те, которые вы создали в других программах, таких как blender или photoshop (в этом случае подсказкой будет описание изображения).
- Чтобы изменить стиль изображения, сохранив его сходство с оригиналом, можно использовать img2img с меньшей силой несколько раз и получить гораздо лучшую точность изображения по сравнению с одним img2img с большей силой. В данном примере мы использовали силу 0,25 4 раза, поэтому каждый раз, когда мы генерируем изображение, мы вставляем сгенерированное изображение в img2img и повторно запускаем его с той же скоростью и силой, пока не получим нужный нам стиль. Если использовать одно и то же изображение в img2img с большей силой, то можно быстро потерять сходство изображений.
Поздравляем вас с тем, что вы достигли такого уровня! Теперь вы имеете полное представление обо всех параметрах стабильной диффузии.