Nvidia GPU-k jövője - amit tudni vélünk - Videokártyák fórum

üzenetek

hozzászólások


Raymond
(félisten)
Blog

Ez eleg lassunak tunik, legalabbis en tobbre szamitottam. A sima RTX2080 csinal az SD1.5-el olyan 9 it/s korul. Nalam a vae-ft-mse-840000-ema-pruned.safetensort van a VAE-ra hasznalva es ahogy nezem nalad azert is sir hogy xformers nincs, nalam az is megy. Az alap SD1.5-bol van egy TensorRT verziom is, az igy fut az RTX2080-on:

A nem konvertalt "alap" ahogy fentebb reszletezve pedig igy:

Probald meg a Fooocus-t. Ott csak ezt a zip-et kell letolteni, kicsomagolni es utanna run.bat [link] letolt maganak mindent ami kell beleertve a model/weight file-okat igy eltart egy darabig az elso inditas (foleg a 6GB+ JuggernautXLv8 letoltese miatt) de utanna szepen megy minden. Ha valtoztatsz a Preset-en (az Advanced alatt, itt allitsd 1024x1024-re a meretet is) akkor letolt mas modelleket is [link] de ezt latod a konzolban hogy miert "nem tortenik semmi azonnal". Az RTX2080 itt 1.83 it/s amit tud. Ez a specs amit detekal:

Total VRAM 8192 MB, total RAM 32714 MB
Set vram state to: NORMAL_VRAM
Always offload VRAM
Device: cuda:0 NVIDIA GeForce RTX 2080 : native
VAE dtype: torch.float32
Using pytorch cross attention
Refiner unloaded.
Running on local URL: http://0.0.0.0:7865
model_type EPS
UNet ADM Dimension 2816

Kicancsi lennek mit ir nalad a VAE dtype-ra, itt F32, az RTX4090-nel BF16.


Raymond
(félisten)
Blog

Megneztem ezt is az RTX2080 gepen LM Studio-ban, kb ugyanaz a sebesseg (57.56 tok/s):


MasterDeeJay
(veterán)
Blog

Felraktam a fooocust.

Total VRAM 16384 MB, total RAM 130776 MB
Set vram state to: NORMAL_VRAM
Always offload VRAM
Device: cuda:0 Tesla V100-PCIE-12GB : native
VAE dtype: torch.float32
Using pytorch cross attention
Refiner unloaded.
Running on local URL: http://127.0.0.1:7865
model_type EPS
UNet ADM Dimension 2816

1024x1024-en elég lassú.

[Fooocus] Preparing Fooocus text #1 ...
[Prompt Expansion] proharver test image video cards, dramatic color, intricate, elegant, highly detailed, extremely scientific, shining, sharp focus, innocent, fine detail, beautiful, inspired, illustrious, complex, epic, amazing composition, fancy, elite, designed, clear, crisp, polished, artistic, symmetry, rich deep colors, cinematic, light, striking, marvelous, moving, very
[Fooocus] Preparing Fooocus text #2 ...
[Prompt Expansion] proharver test image video cards, mystical surreal, highly detailed, very beautiful, dramatic light, cinematic composition, clear artistic balance, inspired color, intricate, elegant, perfect background, professional fine detail, extremely nice colors, stunning, cute, futuristic, best, creative, positive, thoughtful, vibrant, successful, pure, hopeful, whole, romantic, iconic, shiny
[Fooocus] Encoding positive #1 ...
[Fooocus Model Management] Moving model(s) has taken 1.27 seconds
[Fooocus] Encoding positive #2 ...
[Fooocus] Encoding negative #1 ...
[Fooocus] Encoding negative #2 ...
[Parameters] Denoising Strength = 1.0
[Parameters] Initial Latent shape: Image Space (1024, 1024)
Preparation time: 3.55 seconds
[Sampler] refiner_swap_method = joint
[Sampler] sigma_min = 0.0291671771556139, sigma_max = 14.614643096923828
Requested to load SDXL
Loading 1 new model
[Fooocus Model Management] Moving model(s) has taken 34.70 seconds
100%|██████████████████████████████████████████████████████████████████████████████████| 30/30 [01:05<00:00, 2.19s/it]
Requested to load AutoencoderKL
Loading 1 new model
[Fooocus Model Management] Moving model(s) has taken 1.89 seconds
Image generated with private log at: T:\AI\Fooocus\Fooocus\outputs\2024-03-29\log.html
Generating and saving time: 103.38 seconds
[Sampler] refiner_swap_method = joint
[Sampler] sigma_min = 0.0291671771556139, sigma_max = 14.614643096923828
Requested to load SDXL
Loading 1 new model
[Fooocus Model Management] Moving model(s) has taken 27.48 seconds
33%|███████████████████████████▎ | 10/30 [00:21<00:43, 2.18s/it]

Annyi hogy a kártyát átraktam WDDM módba nvidia-smi-vel.
Így már Aida is látja rendesen meg a hwinfó is.

Játékra is alkalmas lenne de a pcie1x miatt nincs értelme.

FP16-ot kellene tudnia pedig. Még annyi hogy alig melegszik 60 fok felett alig látom pedig nem is megy rá rendesen levegő csak ilyen 2 cm hézagba fujatok bele blowerrel. Az előző Tesla M40 már ennyinél megfőtt volna.

[ Szerkesztve ]


Raymond
(félisten)
Blog

Az hogy a komplett muvelett lassabb az ertheto a lassu PCIe miatt de hogy a generalas maga is csak 19%-al gyorsabb (1.83 -> 2.18) az erdekes. Na es az is hogy a sokkal magasabb memoria savszel ellenere az LLM inference azzal az 5GB-ot foglalo modellel ugyanaz a sebesseg. De lehet az nem terheli elegge, azzal az RTX4090 is olyan 100 tok/s csak.


Raymond
(félisten)
Blog

"FP16-ot kellene tudnia pedig."

Tudja es szerintem hasznalja is belsoleg. A Turing RTX2080 is tamogatja az FP16-ot tensor alatt plusz a RAM hasznalatbol itelve is FP16-ban megy a kepgeneralas, maskepp nem lenne igazan eleg a 8GB VRAM a Fooocus-nal se.


MasterDeeJay
(veterán)
Blog

Megy rá majd másik bios. Tdp-t sem láttam 200w felett. Superposition teszten sem meg rendesen.


MasterDeeJay
(veterán)
Blog

Na akkor a 2080-hoz képest +19%. Kezdetnek az nem annyira rossz. Tekintve hogy 59eft volt postával.
Azt tudni kell hogy nem boostol órajelet a kártya, tdp is mintha limitálva lenne. Nagyon furcsa hogy alig melegszik. Ha kész lesz hozzá a hűtés akkor újra mérek mindent.
Az biztos hogy a gyári biosa limites vagy legalábbis bányászatra optimalizált.
Illetve szét is kell szednem a pcie 1x miatt mert lehet csak az smd kondik hiányoznak.
Elmeletben az összes CMP bányásznál tensor mag és dupla pontosság, pcie sávszél, video en/decode nyesve van. Annyi hogy ez usa piac only szóval lehet itt engedékeynebbek voltak.

[ Szerkesztve ]


Raymond
(félisten)
Blog

Hat azt nagyon megerte, egy 16GB gyors VRAM-u kartya 150EUR-ert, a legolcsobb uj a 3x dragabb 4060Ti 16GB most 450EUR-ert.


MasterDeeJay
(veterán)
Blog

Lehet többet kellett volna vennem. Áfa sem ment rá mert német raktárból jött.
Azért gondolom hogy a 2080+ tizenx % már egész jó, de lesz húzva és moddolva is. Ez csak a kezdet.

[ Szerkesztve ]


lenox
(veterán)
Blog

Nekem ilyen:

Total VRAM 49140 MB, total RAM 130834 MB
Set vram state to: NORMAL_VRAM
Always offload VRAM
Device: cuda:0 NVIDIA RTX 6000 Ada Generation : native
VAE dtype: torch.bfloat16

[Fooocus] Encoding positive #1 ...
[Fooocus Model Management] Moving model(s) has taken 0.14 seconds
[Fooocus] Encoding positive #2 ...
[Fooocus] Encoding negative #1 ...
[Fooocus] Encoding negative #2 ...
[Parameters] Denoising Strength = 1.0
[Parameters] Initial Latent shape: Image Space (1024, 1024)
Preparation time: 1.98 seconds
[Sampler] refiner_swap_method = joint
[Sampler] sigma_min = 0.0291671771556139, sigma_max = 14.614643096923828
Requested to load SDXL
Loading 1 new model
[Fooocus Model Management] Moving model(s) has taken 2.62 seconds
100%|██████████████████████████████████████████████████████████████████████████████████| 30/30 [00:04<00:00, 6.36it/s]
Requested to load AutoencoderKL
Loading 1 new model
[Fooocus Model Management] Moving model(s) has taken 0.14 seconds
Image generated with private log at: S:\fooocus\Fooocus\outputs\2024-03-29\log.html
Generating and saving time: 8.16 seconds
[Sampler] refiner_swap_method = joint
[Sampler] sigma_min = 0.0291671771556139, sigma_max = 14.614643096923828
Requested to load SDXL
Loading 1 new model
[Fooocus Model Management] Moving model(s) has taken 1.23 seconds
100%|██████████████████████████████████████████████████████████████████████████████████| 30/30 [00:04<00:00, 6.29it/s]
Requested to load AutoencoderKL
Loading 1 new model
[Fooocus Model Management] Moving model(s) has taken 0.13 seconds
Image generated with private log at: S:\fooocus\Fooocus\outputs\2024-03-29\log.html
Generating and saving time: 6.73 seconds
Requested to load SDXLClipModel
Requested to load GPT2LMHeadModel
Loading 2 new models
Total time: 16.93 seconds
[Fooocus Model Management] Moving model(s) has taken 0.57 seconds


Raymond
(félisten)
Blog

Ez ugyanaz mint a 4090-em 70% Power Limit-el. Full 450W-on olyan 6.7-6.9 kozott van.


lenox
(veterán)
Blog

Ez meg a gv100:

Total VRAM 32767 MB, total RAM 32723 MB
Set vram state to: NORMAL_VRAM
Always offload VRAM
Device: cuda:0 Quadro GV100 : native
VAE dtype: torch.float32

[Fooocus] Encoding positive #1 ...
[Fooocus Model Management] Moving model(s) has taken 0.17 seconds
[Fooocus] Encoding positive #2 ...
[Fooocus] Encoding negative #1 ...
[Fooocus] Encoding negative #2 ...
[Parameters] Denoising Strength = 1.0
[Parameters] Initial Latent shape: Image Space (1024, 1024)
Preparation time: 2.79 seconds
[Sampler] refiner_swap_method = joint
[Sampler] sigma_min = 0.0291671771556139, sigma_max = 14.614643096923828
Requested to load SDXL
Loading 1 new model
[Fooocus Model Management] Moving model(s) has taken 2.69 seconds
100%|██████████████████████████████████████████████████████████████████████████████████| 30/30 [00:10<00:00, 2.78it/s]
Requested to load AutoencoderKL
Loading 1 new model
[Fooocus Model Management] Moving model(s) has taken 0.25 seconds
Image generated with private log at: C:\Fooocus\Fooocus\outputs\2024-03-29\log.html
Generating and saving time: 15.11 seconds
[Sampler] refiner_swap_method = joint
[Sampler] sigma_min = 0.0291671771556139, sigma_max = 14.614643096923828
Requested to load SDXL
Loading 1 new model
[Fooocus Model Management] Moving model(s) has taken 1.74 seconds
100%|██████████████████████████████████████████████████████████████████████████████████| 30/30 [00:11<00:00, 2.68it/s]
Requested to load AutoencoderKL
Loading 1 new model
[Fooocus Model Management] Moving model(s) has taken 0.25 seconds
Image generated with private log at: C:\Fooocus\Fooocus\outputs\2024-03-29\log.html
Generating and saving time: 14.62 seconds
Requested to load SDXLClipModel
Requested to load GPT2LMHeadModel
Loading 2 new models
Total time: 32.58 seconds
[Fooocus Model Management] Moving model(s) has taken 0.77 seconds


Raymond
(félisten)
Blog

Koszi! Akkor MasterDeeJay banyaszkartyajaban is van meg talan annyi tartalek hogy ezt megkozelitheti.


MasterDeeJay
(veterán)
Blog

Az biztos hogy végigpróbálom más biosokkal. Nvsmi-vel lehet húzni korlátozottan de a hbm is csak 810mhz max. Boostot 1380-ra fel tudtam rakni de nem boostol. Tdp limit is 100%hogy van szóval a legjobb v100-as biossa kezdem majd. Meg ugye a pcie 1x bár az nekem nem nagy gond.
Quadro gv100 biosa lenne logikus hátha van rajta venti vezérlés is már ha az áramkör rajta van. (Most kézzel tekergetem egy régi titan szabályzóval)

[ Szerkesztve ]


MasterDeeJay
(veterán)
Blog

Biost nem enged még a moddolt bios írókkal sem. Kézzel beálíltva órajeleket nem stabil, illetve a TDP limit is le van véve, biosa szerint 250w -60-0%-ig állítható de sem nvidia-smi-vel sem afterburnerrel nem lehet. Szóval elő szedem a külső írót mert amúgy is szét kell szednem a kártyát.
Rebar sem megy, azaz nem is kapott nagy memóriacímet bár nem tudom hogy kellene-e neki egyáltalán.


Raymond
(félisten)
Blog

Ha maradna is ahogy van, ez egy 2080Ti/3070 teljesitmeny 16GB VRAM-al 150-ert.


MasterDeeJay
(veterán)
Blog

SD-re felraktam a tensorRT kieget bekapcsolva 8 kikapcsolva 3

Nem tudom hogyan lehetne tesztelni rendesen.

Loading TensorRT engine: T:\AI\stable-diffusion-webui\models\Unet-trt\v1-5-pruned-emaonly_d7049739_cc70_sample=2x4x64x64-timesteps=2-encoder_hidden_states=2x77x768.trt
Loaded Profile: 0
        sample = [(2, 4, 64, 64), (2, 4, 64, 64), (2, 4, 64, 64)]
        timesteps = [(2,), (2,), (2,)]
        encoder_hidden_states = [(2, 77, 768), (2, 77, 768), (2, 77, 768)]
        latent = [(2, 4, 64, 64), (2, 4, 64, 64), (2, 4, 64, 64)]
100%|██████████████████████████████████████████████████████████████████████████████████| 20/20 [00:02<00:00,  7.84it/s]
Total progress: 30it [07:30, 15.00s/it]
100%|██████████████████████████████████████████████████████████████████████████████████| 20/20 [00:02<00:00,  7.71it/s]
Total progress: 100%|██████████████████████████████████████████████████████████████████| 20/20 [00:02<00:00,  6.71it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 20/20 [00:02<00:00,  7.30it/s]
Total progress: 100%|██████████████████████████████████████████████████████████████████| 20/20 [00:02<00:00,  6.88it/s]
Dectivating unet: [TRT] v1-5-pruned-emaonly████████████████████████████████████████████| 20/20 [00:02<00:00,  8.02it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 20/20 [00:06<00:00,  2.93it/s]
Total progress: 100%|██████████████████████████████████████████████████████████████████| 20/20 [00:06<00:00,  2.94it/s]
Activating unet: [TRT] v1-5-pruned-emaonly█████████████████████████████████████████████| 20/20 [00:06<00:00,  3.01it/s]
Loading TensorRT engine: T:\AI\stable-diffusion-webui\models\Unet-trt\v1-5-pruned-emaonly_d7049739_cc70_sample=2x4x64x64-timesteps=2-encoder_hidden_states=2x77x768.trt
Loaded Profile: 0
        sample = [(2, 4, 64, 64), (2, 4, 64, 64), (2, 4, 64, 64)]
        timesteps = [(2,), (2,), (2,)]
        encoder_hidden_states = [(2, 77, 768), (2, 77, 768), (2, 77, 768)]
        latent = [(2, 4, 64, 64), (2, 4, 64, 64), (2, 4, 64, 64)]
100%|██████████████████████████████████████████████████████████████████████████████████| 20/20 [00:02<00:00,  7.88it/s]
Total progress: 100%|██████████████████████████████████████████████████████████████████| 20/20 [00:02<00:00,  6.85it/s]
Total progress: 100%|██████████████████████████████████████████████████████████████████| 20/20 [00:02<00:00,  8.00it/s]

[ Szerkesztve ]


Raymond
(félisten)
Blog

Ahogy nezem mar letesztelted rendesen? :) Generalsz kepet a sima model es VAE kombinacioval, kapsz egy it/s erteket. Aztan generalsz ugyanolyan felbontasu kepet az aktivalt TRT UNet-el es megint kapsz egy it/s ertket. Az a 3 -> 8 az nagy ugras. En csak a 4090-el probaltam par honapja szinten az SD1.5 model konvertalasaval es ott csak olyan 65-75% pluszt hoz igy nem sok ertelme van. Az a kartya mar az SDXL 1024x1024 kepeket is 3-4mp alatt generalja 30 lepessel, nincs sok ertelme az 512x512 vagy 768x768 felbontasu kepeket gyorsitani, foleg mert azoknal mar kell mas is (hiresfix vagy mas upscaler, inpainting stb.) es ott sok a limitacio es a model swapping igy az amit nyersz elveszik a komplett processzben. Nalad viszont egyertelmuen van ertelme ha 2.5x gyorsabban general.

Szerk: itt egy illusztracio miert nincs ertelme 4090-nel. Ezt a tesz [kép] 16 darab 768x1280 felbontasu kep az X-en lathato lepesekkel generalva es 92 masodpercig tartott a folyamat. Arra viszont jo volt hogy lassam valami nem oK a geppel mert lassabban general olyan 15%-al mint regebben, mindegy hogy A1111 vagy Fooocus, ra kell nezni mi van :)

[ Szerkesztve ]


MasterDeeJay
(veterán)
Blog

Abból gondolom én is hogy működik mert ki be kapcsolva más az eredmény. Illetve 200w fölé megy a fogyasztás.
CUDA-Z benchmark:

GPU Core Performance
Single-precision Float: 13.4887 Tflop/s
Double-precision Float: 441.227 Gflop/s
64-bit Integer: 3298.58 Giop/s
32-bit Integer: 13.5213 Tiop/s
24-bit Integer: 13.3683 Tiop/s

Float32 az hozza a 14Tflopsot (~2080Ti), a Float64 az nem bár az nem is lényeg.
Fooocus használja a Float16-ot a logokból látszik.
Az órajelek még mindíg alacsonyabbak mint kellene, de majd javítok rajta. A pcie sávszél is megoldódik, két-két SMD hiányával tiltották le

[ Szerkesztve ]


Raymond
(félisten)
Blog

Heh, tenyleg tobbet kellett volna rendelned ezekbol a kartyakbol :)

üzenetek