üzenetek

hozzászólások


lezso6
(HÁZIGAZDA)
Blog

Az azonos sebességű FP16-nak is lehet előnye, ha natív. Ilyenkor a GPU tudja, hogy FP16, tehát nem foglal dupla helyet a gyorsítótárakban, stb.

Az viszont nem érthető, hogy miért nem FP16x2 a többi FP32 mag NV-nél. Mégsem éri meg? Vagy tényleg csak arról van szó, hogy vedd meg a legnagyobbat, ha FP16-ot akarsz? De a Tesláknál a GP102 és GP104-nél az INT8 megy izomból, arra van support. Tehát DL az mehet olcsóbban is, de FP16 nem? Mégis miért? :F Lehet azért, mert a sima FP32 mag tud 4x INT8-at, de az FP16x2 már nem? :)

szerk:

IGEN! https://devblogs.nvidia.com/mixed-precision-programming-cuda-8/

Na itt a kutya elásva. Többféle CUDA mag is van Pascaloknál. Inkább, így hívom, mint FP32-nek, mivel ugye kombinált magokról van szó. Ha megpróbálom összefoglalni, akkor kb így néz ki:

"Fermi" CUDA mag: FP32, INT32

"Maxwell" CUDA mag: FP32, INT32, FP16x2

"Pascal" CUDA mag: FP32, INT32, INT16x2, INT8x4

Na most az alap a Fermi-ben lévő mag. A Keplerben ugyanez van, sőt, szinte minden Maxwell-ben is, mert csak a Tegrák kaptak duplázott FP16-ot. Ultramobil felett ezt a tudást végül a P100 kapta meg, míg a kisebb Pascalok új magokat, mert a DL a fő fókusz.

A V100 esetén meg all-in van, itt már nem igazán beszélhetünk CUDA magokról, mivel szétválasztották külön FP és INT ALU-ra. Az FP ugye a Maxwell-féle CUDA mag lehet INT nélkül. Az INT-ről pedig elég nagy a kuss, hogy van-e INT16x2, de valszeg nincs, mivel az INT8x4 az nincs, mert DL-re ehelyett a Tensor FP16-tal operál, mint fixfunkciós mátrixszorzógép.

Itt kérdés, hogy kis Volták milyen magokat fognak kapni. Kétféle verziót látok:

1. Csak a Tensor magokat kukázzák, így játékoknál a Packed Math-ból ők is profitálhatnak, de pápá Mixed Precision Integer.

2. Marad a Pascal mag, és beintenek a Packed Math-nak, inkább tolják tovább a Mixed Precision Integer szekerét.

Játékos szemszögből értelemszerűen az első lenne jó. :)

[ Szerkesztve ]

üzenetek