
Hvis du vil fordype deg i AI-drevet bilde- og videoproduksjon uten å miste kontrollen, har du kommet til rett sted: ComfyUI er et nodebasert grensesnitt som lar deg bygge din egen pipeline som LEGO-klosser. I denne veiledningen lærer du, fra bunnen av og i detalj, hvordan du konfigurerer arbeidsflyter for visuelle effekter (VFX) i ComfyUI., for både bilde og video, uten å gå glipp av noe viktig.
I tillegg til det grunnleggende skal vi se på tekst-til-bilde-flyter, bilde-til-bilde-flyter, innmaling, utmaling, skalering, ControlNet, SDXL, LoRA og innebygginger. Vi tar spranget til video med AnimateDiff, HunyuanVideo, LTX Video og Wan 2.1Dette inkluderer krav, installasjon, viktige parametere og produktivitetstips med snarveier og nodeadministratorer. Vi dekker også skyalternativer hvis du foretrekker å unngå komplekse installasjoner.
Hva er ComfyUI, og hvorfor er det ideelt for visuelle effekter?
ComfyUI er et nodebasert GUI for Stable Diffusion som lar deg se og endre dataflyten fra start til slutt. Hver node utfører en spesifikk oppgave (lasting av en modell, kode tekst, sampling, dekoding av VAE osv.) og er koblet til med kabler. som representerer innganger og utganger. Denne filosofien er perfekt for VFX: du vet nøyaktig hvor signalet kommer inn, hvor det transformeres og hvordan du påvirker resultatet.
Sammenlignet med monolittiske grensesnitt, skiller ComfyUI seg ut med sin gjennomsiktighet og fleksibilitet. Kostnaden for den friheten er en brattere læringskurve og noe visuell distraksjon. (hver arbeidsflyt kan legges opp forskjellig), men belønningen er å kunne prototype raskt, feilsøke nøyaktig og dele arbeidsflyter på en reproduserbar måte.
ComfyUI vs. AUTOMATIC1111
Mange brukere kommer fra AUTOMATIC1111, klassikeren for stabil diffusjon. ComfyUI forbedrer letthet, gjennomsiktighet og prototypemuligheterA1111 føles mer ensartet og direkte, men mindre detaljert. Hvis du vil forstå den indre funksjonen og få mest mulig ut av visuelle effekter, er ComfyUI et trygt valg.
Første steg og grunnleggende kontroller
Det er enkelt å samhandle med lerretet: zoom med et hjul eller en klypebevegelse, dra for å flytte, og opprett forbindelser ved å dra fra utgangen til én node til inngangen til en annen. Du vil se blokker (noder) som Load Checkpoint, CLIP Text Encode, KSampler eller VAE, og kabler som representerer databanen.
Tekst til bilde: grunnleggende flyt og viktige noder
Standard pipeline inkluderer lasting av et kontrollpunkt, koding av ledeteksten, sampling i latenter og dekoding til piksler. Dette er skjelettet som nesten alt i ComfyUI er bygget på..
Modellvalg med lastkontrollpunkt
Load Checkpoint-noden leverer tre deler: MODEL (støyprediksjonsnettverk), CLIP (tekstkoder) og VAE (for å gå fra piksler til latente elementer og omvendt). MODEL mater KSampleren, CLIP går til tekstnodene, og VAE brukes til å dekode det endelige resultatet.Uten et kontrollpunkt finnes det ikke noe spill, så velg et som er kompatibelt med arbeidsflyten din.
Positive og negative prompter med CLIP Text Encode
Bruk to CLIP Text Encode-noder: den øverste for positiv og den nederste for negativ. Teksten transformeres til høyoppløselige innebygde elementer som veileder formidlingen.Du kan vekte ord med syntaks (term:1.2) for å gi mer eller mindre vekt til konsepter.
KSampler-generering og parametere
Prøvetakingen starter når du legger den i køen (køledetekst). KSampler kontrollerer frø, trinn, sampler, planlegger og støydempingstyrkeEt fast frø gir reproduserbarhet; flere trinn forbedrer vanligvis detaljer (på bekostning av tid); denoise=1 i text2img bruker hele støyfjerningsprosessen.
Tomt latent bilde: oppløsning og grupper
Noden Empty Latent Image oppretter det første latente lerretet. Høyde og bredde må være multipler av 8Typiske størrelser: 512/768 for SD 1.5 og 1024 for SDXL. Juster batchstørrelsen hvis du ønsker flere bilder per kjøring.
VAE: kompresjon og rekonstruksjon
VAE koder og dekoder mellom piksler og latenter. Det gir effektivitet og et manipulerbart latent rom, i bytte mot noe tap eller artefakter.I text2img vil du hovedsakelig bruke den på slutten (VAE Decode) for å få bildet i piksler.
Bilde til bilde, SDXL og innmaling/utmaling
Bilde for bilde
Denne arbeidsflyten kombinerer en ledetekst og et basisbilde. Velg kontrollpunkt, last inn bilde, se gjennom ledetekster og juster støyfjerningen i KSampler for å bestemme hvor langt du avviker fra originalen (mindre støydemping = mer lik kilden).
SDXL på ComfyUI
ComfyUI støtter SDXL tidlig og effektivt takket være modulariteten. Forbered positive/negative prompts og start prosessen med riktig sampler; husk den optimale oppløsningen til det latente (vanligvis 1024).
Maling
For å endre bestemte områder, last inn bildet, åpne maskeredigereren og lagre masken i noden. Denne arbeidsflyten bruker standardmodeller. Hvis du bruker et «inpainting»-sjekkpunkt, bruk VAE Encode (Inpaint). I stedet for standardnodene VAE Encode og Set Noise Latent Mask, angir den meldingen til å beskrive endringen og en typisk støyreduksjonsstyrke som 0.6.
Utmaling
Utvid bildegrensene med Pad Image for Outpainting: kontroller venstre/topp/høyre/bunn og uttoning for jevne overganger. I VAE Encode (for Inpainting) juster grow_mask_by (bedre >10) for å oppnå mer naturlige og godt integrerte fyllinger.
Skalering: piksel vs. latent
Pikseloppskalering
To måter: via algoritme (bikubisk, bilineær, nærmeste eksakte) med oppskalert bilde ved hjelp av, eller via modell med last inn oppskalert modell + oppskalert bilde (ved bruk av modell). Algoritmer er raske, men mindre raffinerte; modeller tar lengre tid og tilbyr vanligvis bedre detaljerog du kan kombinere utflukter med en pakke 50 effekter for After Effects.
Oppskalere av latent
Den såkalte Hi-Res Latent Fix skalerer direkte i latent rom, og beriker detaljene under rekonstruksjonen. Den kan avvike noe fra originalen og er tregere, men den legger til informasjon i stedet for bare å strekke piksler.
Rask sammenligning
Pikseloppskalering: rask, uten å legge til ny informasjon, mulig utjevning. Latent oppskalering: saktere, Det tilfører detaljer, men kan endre basisbildet.Velg i henhold til kontekst og ønsket gjengivelse.
ControlNet: finkontroll av strukturen
ControlNet gir retningslinjer som grenser, positur, dybde eller segmentering for å sikre at modellen respekterer strukturen. Det er et ekstremt kraftig verktøy for VFX fordi det konsekvent fikserer komposisjon og bevegelse.Prøv Lineart, Depth eller OpenPose, og juster styrken for å balansere gjengivelse/kreativitet.
ComfyUI-administrator: Tilpassede noder oppdatert
Installer manglende noder
Hvis en arbeidsflyt ber om noder du ikke har, bruk Manager: knappen Manager, "Installer manglende tilpassede noder", start ComfyUI på nytt og last nettleseren på nytt. Dette sikrer at du gjenskaper den delte flyten nøyaktig..
Oppdater noder
Fra administratoren, se etter oppdateringer og klikk på «Installer egendefinerte noder». Hvis «Oppdater» vises ved siden av en pakke, installer den, start på nytt og oppdater. Å holde noder oppdatert forhindrer feil og forbedrer funksjonaliteten.
Søk etter noder på lerretet
Dobbeltklikk på det tomme lerretet for å åpne nodesøkeren og legge dem til etter navn. Dette fremskynder monteringen av komplekse kjeder. uten å bla gjennom menyer.
Innebygginger (tekstinversjon)
For å aktivere en innebygging, skriv inn embedding:Name ved den positive eller negative ledeteksten. Plasser filen i ComfyUI/models/embeddings ComfyUI vil bruke den hvis den finner en match. Det er en effektiv måte å innlemme spesifikke stiler eller konsepter på.
Innbygging av autofullføring
Installer ComfyUI-Custom-Scripts-pakken for autofullføring. Når den er aktiv, vil du vise tilgjengelige innebygginger når du begynner å skrive «embedding:».akselerere arbeidet med store samlinger.
Innbyggingsvekt
Du kan vekte det akkurat som med ord: (embedding:Name:1.2) øker innflytelse og (embedding:Name:0.8) reduserer den. Justering av vekter gir deg fin kontroll over den visuelle effekten.
LoRA: tilpasser stilen uten å berøre VAE
En LoRA modifiserer MODEL og CLIP av basissjekkpunktet for å introdusere stiler, tegn eller objekter, slik at VAE forblir intakt. Grunnleggende flyt: velg kontrollpunkt, legg til én eller flere LoRA-er, gjennomgå ledetekster og start køen.
Flere kaskaderende LoRA-er
Du kan bruke flere LoRA-er i samme flyt; de kombineres sekvensielt. Eksperimenter med rekkefølge og vekt for å kreativt blande stiler inntil den ønskede balansen er oppnådd.
Snarveier og triks som sparer timer
Kopier/lim inn: Ctrl+C, Ctrl+V og Ctrl+Shift+V for å lime inn mens oppføringene beholdes. Velg flere noder med Ctrl, opprett valgbokser og flytt dem med Shift for rask oppsett.
Hvis du deaktiverer en node med Ctrl+M, utelates den midlertidig. minimer en node ved å trykke på prikken i øvre venstre hjørne å rydde lerretet i store prosjekter.
Genereringskø: Ctrl+Enter. ComfyUI kjører noder på nytt bare hvis inngangene endres; fikser frø for å unngå å beregne lange kjeder på nytt og spare tid.
PNG-innebygd flyt: Dra et generert bilde inn i ComfyUI for å hente arbeidsflyten fra metadataene. Det er en utmerket måte å dele og versjonere pipelines på uten å miste brikker. Hvis du lærer bedre med video, sjekk ut 10 banebrytende videoopplæringer.
ComfyUI for video: AnimateDiff trinn for trinn
AnimateDiff lar deg generere sekvenser fra tekst, bilder eller video. For Windows med NVIDIA er 10 GB VRAM optimalt (minimum 8 GB med lavere oppløsninger eller Txt2Vid)I krevende prosjekter kan du forvente rundt 10 GB med 2 ControlNets.
Installasjon og avhengigheter
Installer Git for å klone noder og 7-Zip for å pakke ut den bærbare ComfyUI-filen. FFmpeg er valgfritt (for pakking av GIF/MP4 fra kombineringsnoder)Hvis den ikke er i PATH, fortsetter strømmingene å generere løse rammer.
Last ned den bærbare ComfyUI og kjør run_nvidia_gpu første gang for å initialisere. I mappen for tilpassede noder, klon ComfyUI-AnimateDiff-Evolved, ComfyUI-Manager, ComfyUI-Advanced-ControlNet og ComfyUI-VideoHelperSuite.
Fra Manager installerer du «ControlNet Auxiliary Preprocessors» og «FizzNodes». Start ComfyUI på nytt for å laste alt riktig og unngå importfeil.
Modeller som trengs
Plasser kompatible SD 1.5-sjekkpunkter i riktig mappe og en generell VAE om nødvendig. Last ned bevegelsesmoduler (f.eks. de originale fra AnimateDiff, TemporalDiff eller AD Stabilized Motion) og kopier dem til banen din. For ControlNet, legg til Lineart, Depth og OpenPose (pth/yaml).
Viktige arbeidsflyter: Vid2Vid og Txt2Vid
Vid2Vid: laster inn en katalog med bilder med inndatanoden for bilde/video, kontrollerer image_load_cap, skip_first_images og select_every_nth for varighet og sampling. Uniforme kontekstalternativer er avgjørende: kontekstlengde ~16, overlapping for kontinuitet og lukket sløyfe kun for Txt2Vid.
Txt2Vid: bruker en primær rammenode (uten en bildelaster) og genererer direkte fra ledeteksten. Med Denoise=1 i KSampler vil du ha en fullstendig generativ effekt, ideelt for fantasifulle klipp.
Planlegging av batch-ledetekster
FizzNodes' BatchPromptSchedule lar deg variere prompts per ramme. Den bruker pre_text og app_text for vanlige overskrifter og avslutninger, og definerer "frame: prompt"-par. Vær forsiktig med det siste kommaet i det siste elementet, det vil føre til en feil; dupliserer en instruksjon hvis du vil beholde den mellom intervaller.
Sampling og kombinasjon av innstillinger
KSampler for video krever flere trinn (minimum 25 og bedre å øke). Prøv Euler_a-sampleren og juster CFG etter din smak.I Vid2Vid, reduser støyreduksjonen for å komme nærmere kildeklippet. Kombiner-noden eksporterer GIF/MP4: definer bildefrekvens, løkkeantall, format og om du vil ha ping-pong.
Praktiske tips: reduser styrken til ControlNet for stillbilder, prøv OpenPose, bruk en annen KSampler for "hires"-korreksjon. Prøv Motion LoRA for å berike spesifikke bevegelser og kombinerer ControlNets sparsomt.
Andre videomotorer i ComfyUI
HunyuanVideo (img2vid med undertekster)
Klargjør bildet ditt til 512x512 og generer en undertittel med Florence2Run. Erstatt begreper som «bilde/foto/illustrasjon» med «video» ved hjelp av StringReplace For å samkjøre med modelltreningen. Konverter til latent rom ved hjelp av HunyuanVideo Sampler + wrappers, bruk Lora Select og eksporter med kombinereren.
LTX-video (LTX-nodepipeline)
Installer ComfyUI-LTXVideo-noder og -modeller (inkluderer PixArt-XL-koder). Skriv ledeteksten i CLIP, lag videoen latent med EmptyLTXVLatentVideo og juster LTXVSchedulerAntall trinn øker kvaliteten, og parametere som max_shift, base_shift, stretch og terminal former klippets dynamikk. Lagre med SaveAnimatedWEBP (tapfri sannhet, kvalitet 100) eller eksporter til andre formater.
Wan 2.1 (tekst til video, bilde til video, video til video)
ComfyUI integrerer også flyter for Wan 2.1. Bruken inkluderer Txt2Vid, Img2Vid og Vid2Vid, med parameterkontroll som ligner på tidligere pipelines og fordeler med tidsmessig konsistens avhengig av brukstilfellet.
Bevegelig grafikk: segmentering, dybde og blanding
For bevegelig grafikkanimasjoner fra video, start med LoadVideoInput, kontroller Skip First Frames og Select Every Nth Frame, og skaler med ImageScaleToMegapixels opptil ~1MP. Denne forbehandlingen justerer VRAM-belastning og driftshastighet i generasjonen. Du kan også sjekke hvordan Lag titler i Premiere å integrere grafikk og rulletekster.
Segmenter motivet ved hjelp av GroundingDINO og SAM med GroundingDinoSAMSegment fra tekst. Forstørr masken med GrowMaskWithBlur og konverter den til et bilde med MaskToImage for en mer robust disposisjon.
Lag et tidssignal med TimeFeatureNode og moduler det med FeatureScaler (lineært, logaritmisk, eksponentielt). Dette lar deg kontrollere dybdeforskyvninger (Z) eller maskeposisjoner langs klippet for flere filmatiske effekter.
Generer en dybdeavhengig malemaske med FlexMaskDepthChamber, som kombinerer motivmasken, tidssignalet og et dybdekart av klippet. Juster Z foran/Z bak for å definere den aktive sonen til enhver tid. og oppnå en overbevisende 3D-effekt.
I den generative fasen laster du inn kontrollpunkt, bruker LoRA-er, konfigurerer ledetekster og legger til ControlNet hvis det er aktuelt. AnimateDiff gir deg rammene; deretter interpolerer du med RIFE VFI for å doble glattheten. og jevne overganger.
Hvis du vil blande passeringer: generer flere versjoner med forskjellige indikasjoner, velg segmenter med ImageIntervalSelectPercentage, bland overganger med ImageBlend og sammenkoble med ImageBatchMulti. En siste gjennomgang av RIFE VFI gjør animasjonen silkemyk og klar for eksport.
ComfyUI online og skyalternativer

Hvis du ikke vil installere noe, finnes det skytjenester med ComfyUI forhåndskonfigurert, med hundrevis av noder/modeller og dusinvis av ferdige arbeidsflyter. De er nyttige for raske tester eller for team som deler maler uten å måtte forholde seg til lokale etater. Som et raskt og enkelt alternativ finnes det også ressurser på animasjoner og visuelle effekter i CapCut.
Et annet alternativ er å bruke skybaserte videogeneratorer som Dreamina: enkelt grensesnitt, ingen lokal VRAM og resultater på 20–60 sekunder. Den tilbyr ekstrafunksjoner som HD-oppskaling, bildeinterpolering og lydsporgenerering.Med gratis daglige kreditter for å komme i gang, er det et strømlinjeformet alternativ når hastighet er viktigere enn detaljert kontroll.
Ytelse, krav og tider
Lokalt krever ComfyUI for bilde til video vanligvis mellom 8 og 24 GB VRAM, avhengig av modell (AnimateDiff, HunyuanVideo, LTX Video) og oppløsning. Selv på kraftige GPU-er kan en generering ta 10–30 minutter Hvis klippet er langt, eller hvis du bruker flere ControlNets og høypassfiltre, flyttes belastningen til leverandøren i skyen.
ComfyUIs programvare er gratis, men kostnaden ligger i maskinvaren og strømmen hvis du jobber over lengre tid. Skyen unngår den utgiften, i bytte mot å være avhengig av tjenesten og et gebyr eller kreditter.Vurder hva som er mest nyttig for arbeidsflyten din.
Vanlig feilsøking
Hvis du ser nullfeil eller noder som «ikke finnes», mangler du sannsynligvis modeller i mappene dine eller avinstallerte avhengigheter. Bekreft at hver node har sin tilknyttede modell, og bruk Manager til å installere eventuelle manglende pakker.Unngå konfliktfylte databaser hvis du allerede bruker ComfyUI til andre oppgaver.
Beste praksis for konsistente visuelle effekter
Lås frø for reproduserbarhet mens du justerer deler av kjeden. Lagre bilder med arbeidsflytmetadata og kommenter node- og modellversjonerI videoen, definer kontekstlengde og overlappinger nøye, og oppretthold en tydelig rekkefølge for ControlNets og LoRA-er.
Bytt taktisk mellom oppskalert piksel og latent avhengig av bildetype og detaljnivå. I Vid2Vid, reduser støyreduksjonen for å respektere basisbevegelsen.I Txt2Vid, trykk på trinn og sampler for å oppnå visuell stabilitet.
Integrer ControlNet-forprosessorer (canny, depth, openpose…) fra Manager for å utvide verktøykassen din. Og husk: mindre ControlNet-styrke yter ofte bedre i video.unngå et filtrert utseende og opprettholde et naturlig utseende.
Sørg for å utforske HunyuanVideo og LTX Video hvis du trenger tekstingsguider, annen tidsdynamikkkontroll eller alternative pipelines. Wan 2.1 legger også til solide alternativer for Txt2Vid, Img2Vid og Vid2Vid med konsistente parametere og konkurransedyktige resultater.
De som søker hastighet og null friksjon kan stole på nettbaserte tjenester, mens de som trenger kirurgisk kontroll og total reproduserbarhet vil skinne med lokal ComfyUI. Med delene du har sett – noder, parametere, snarveier og flyter – har du nå veikartet for å produsere visuelle effekter i toppklasse. både i stillbilder og i videosekvenser, på en fleksibel og skalerbar måte.




