üzenetek

hozzászólások


MaCS_70
(félisten)

Meglátjuk, hogy milyen lesz a gyakorlatban.

Egy ilyen komplex, nagyon nem determinisztikusan működő rendszer esetében a költség/teljesítmény arány messze nem lineáris. Simán lehet, hogy az egytizednyi költségből működő modell nagyon sok mindenre nagyon jó lesz.

MaCS


Televan74
(nagyúr)

Lesz AI, de fűtés nem lesz télen a lakásba. :))


Alaaf Pi
(aktív tag)

A Microsoft feltalálta az olcsó AI-t. Már jó régen:
Clippy is back — for Mac! Microsoft's infamous Office assistant gets a new  virtual life – GeekWire


dolon75
(aktív tag)

ahogy nézem, kell neki dedikált videó kártya, még ha nem is túl erős.
ráadásul english only

Értem, hogy Amerikában minden angol, és hogy maga a forrás, amivel treningezik is angol, és most nem konkrétan a Phi3 ellen szólok, de nem jó ez az irány, hogy más kevesebbek által használt nyelvre nem is nagyon tanítanak...


MaCS_70
(félisten)

Az angolnak azért van még egy nem mellékes tulajdonsága: alig aglutinál. Szinte nem kell foglalkozni a toldalékolással.
Baromi egyszerű a nyelvtan, ami nagyon-nagyon jól jön a szavakat egymás mellé rakni próbáló generatív nyelvi eljárásoknak.

Az angol remek ugródeszka.

MaCS


Alaaf Pi
(aktív tag)

Hát, ha egyszerű nyelvtan, nem az angolt hoznám példának.


MaCS_70
(félisten)

Hanem?

Az angol nem következetes, hiszen tele van rendhagyó esetekkel, és az igeidők és szemléletek használata is intuíciót igényel. A rendhagyó esetek viszont egyszerű behelyettesítéssel kezelhetők, az igeidők 3×2×2-es mátrixa pedig az egyik irányban könnyen értelmezhető, a másik irányban pedig a választékosság rovására érdemi értelemzavarás nélkül könnyen egyszerűsíthető.

A legtöbb nyelv az ember és a nyelvi modellek számára is sokkal nehezebben kezelhető szerkezeteket használ.

Szerinted melyik nagy nyelv lenne egyszerűbb?

(Egyébként a kínai az lenne, ha alfabeikus lenne az írás.)

MaCS


Busterftw
(veterán)

Az angol az egyik legprimitivebb nyelv konkretan.


dolon75
(aktív tag)

igen, ez mind igaz.
csak a baj az hogy az ugródeszka után elég lassan jön a folytatás, AIban pár hónap is nagy lemaradás már.
És addig az itthoni piacra nem lehet kilepni ilyen megoldásokkal, vagy legalábbis elég nehéz.


sztanozs
(veterán)
Blog

Miert pont a fodgaz? Ha az energia miatt kell, akkor az adatkozpontok felvett teljesitmenye szvsz jol josolhato, igy szerintem nem a fodgaz, hanem az alaperomuvek teljesimenyenek noveleset hozza maga utan egy ilyen fejlesztes.


UnA
(Korrektor)
Blog

A kínai - az írásmód nem igazán releváns, van hozzá pinjin.

[ Szerkesztve ]


dolon75
(aktív tag)

egy atomeromű, vízerőmű kapacitását lassú nehéz, időigényes, drága növelni.
a kihasználtságuk nőhet, de az így lefedett alap kapacitást más erőművekből kell fedezni, és mivel a gazerőmű az, amelyet eddig kiegyenlítésre használták, így azok egy részét befogják alaptermelesre is.

Vagy csak simán jól hangzik a cikkben az energiavalsagra való mutogatás.

[ Szerkesztve ]


Alaaf Pi
(aktív tag)

Olasz.


kilua
(senior tag)

A meta LLaMA 3 8bt próbáltam 8gb ram-al és 4gb vrammal szerelt 4 éves laptopomon (LM studio a program neve) az "szépen" fut kb 3 token/s sebességgel, tud kicsit magyarul is, de japánul már jobban (persze angolul a leginkább) szóval nem olyan egyszerű hogy kisebb méretű helyi MI csak angol lehet.


Busterftw
(veterán)

Az olasz (ahogy a spanyol sem) egyszerubb nyelvtanilag, mint az angol.


Alaaf Pi
(aktív tag)

Mind a kettőt tanulva de, egyszerűbb.


.mf
(veterán)

---

Angol vs olasz: tanultam én is mindkettőt (meg még pár másik nyelvet is, FR, DE, JP), egy stabil alapszintig eljutni olasszal nehezebb. Sokkal több az igeidő, ragozás.

A kínaival sem értek egyet, bár azzal csak rövid ideig próbálkoztam (ellenben japánból középfokom van). Egyrészt nagyon kontextusfüggő a nyelv, a ragozás hiánya miatt. Másrészt sok az azonos olvasatú / hangalakú, de más jelentésű kanji - a pinyin csak mankó ezek kiejtésére. Japánból is van latin-betűs átirat, de hiába van a japánban igeidő és ragozás is, még így is borzasztó olvasni és nehéz értelmezni, hogy a sok azonos olvasatú / hangalakú fogalom közül épp melyikről is van szó.


Alaaf Pi
(aktív tag)

Három évig tanultam olaszt egyetemen, lényegesen jobban ment, mint az angol, kevesebb igeidő, kevesebb ragozás. Feltételes mód egyszerűbb. Kevésbé kötött, lazább nyelv.


MaCS_70
(félisten)

Itt valami nem stimmel.

Az igeidők az angolban valóban trükkösek (valójában nem az idők, hanem a szemléletek), de baromi logikusak. De el kell fogadnom, nem mindenki érez erre rá.

A ragozás az angolban kimerül a múltidő d-jében, és az egyes szám első személy jelen idejű s-ében és a többes szám s-ében. Ennél csak azok a nyelvek lehetnek egyszerűbbek, amelyek konkrétan semmilyen ragozást nem használnak -- az olasz és a spanyol nem ilyen.

A feltételes mód baromi egyszerű.

Milyen kötöttségek vannak az angolban?

De közben én is elértem valakit, aki történetesen mindhárom nyelvet jól, akadémiai szinten ismeri, illetve belőlük kettőt tanít is. Szerinte az angol egy bő szinttel könnyebb, mint az eleve másik rendszerbe (családba) tartozó olasz és spanyol, amelyek közül a spanyol (besegítéssel) rendezettebb, könnyebben tanulható, de messze nem annyival könnyebb, mint az angol.
Az persze más kérdés, hogy vannak egyéni különbségek. Az illető például az orosszal komolyan szenvedett, végül középszinten le is állt vele.

MaCS


Busterftw
(veterán)

Illetve mar azert sem all meg az allitas, mert olaszban van gender, megha konnyen kovetheto is.

Objektivan, az angol nyelv egyszerubb, nem azt kell nezni hogy kinek epp melyik megy konnyen.

[ Szerkesztve ]


Alaaf Pi
(aktív tag)

Alany állítmány kötelezö használata pl. Az olasz sokkal lazábban engedi a mondatot szerkeszteni, és egyértelmü marad továbbra is.

#20 Busterftw: Az angolban is van gender.


icemad
(nagyúr)
Blog

Az angol az egyszerű nyelv, mert azt használja az IT ipar. Azt használja az olasz, a kínai, a spanyol, az orosz, stb...


ddekany
(veterán)

Phi-3 Mini-vel próbáltam párfajta dolgot. Teljesen elmebeteg/zavarodott. Persze, a 3,8B-s méretéhez képest meglepően jó. Mint kutatási eredmény érdekes lehet, de amúgy...

Próbáltam a 2x ekkora LLaMa 3 8B-t is amúgy. Sokkal jobb minőséget ad. De még az se tudom mire merném használni a valóságban. Talán cikk összegzésre, nyelvtani javításra... de csak ha nem múlik rajta sok, ha néha odaképzel valamit ami nincs.


ddekany
(veterán)

Ahhoz képest, hogy mennyi nyelvfüggetlen összefüggést kell "leutánoznia" egy LLM-nek, valószínűleg nem nagy ügy a magyar nyelv komplexitása az angol felett. Inkább azért törik ezek a magyart, mert alig láttak olyat. Viszont ahhoz képest meg jól nyomják. Na nem Phi-3 Mini méretben... ez csak halandzsázik magyarul. A LLaMa 3 8B már egész érthetően beszélt, csak erősen töri, és az is csak véletlenül látott csak kb. magyart, és hivatalosan nem támogatja.

Visszafelé fordítás LLaMa 3 8B:

>>> Translate this to English: Ahhoz képest, hogy mennyi nyelvfüggetlen összefüggést kell "leutánoznia" egy LLM-nek, valószínűleg nem nagy ügy a magyar nyelv komplexitása az angol felett.
Considering how much language-independent context an LLM needs to "untangle", it's likely not a big deal that the Hungarian language has complexity above English.

És most Phi-3 Mini (az elmeroggyant):

>>> Translate this to English: Ahhoz képest, hogy mennyi nyelvfüggetlen összefüggést kell "leutánoznia" egy LLM-nek, valószínűleg nem nagy ügy a magyar nyelv komplexitása az angol felett.
Considering the amount of untranslatable connections that need to be eliminated when training an LLM on Hungarian, it's probably not a major issue compared to the complexity of the Hungarian language in comparison to English.
The translation captures both the original meaning and conveys the thought process regarding the impact of Hungarian's unique linguistic features on training a large language model (LLM).

[ Szerkesztve ]


ddekany
(veterán)

Na most angolról magyarra:

LLaMa 3 8B:

>>> Translate this to Hungarian: At an abandoned hotel, a police squad corners Trinity, who overpowers them with superhuman abilities. She flees, pursued by the police and a group of suited Agents capable of similar superhuman feats. She answers a ringing public telephone and vanishes.
Egy elhagyott szállodában egy rendőrségi szervezet szorítja be Trinityt, aki emberfeletti képességeivel legyőzi őket. Menekül, míg a rendőrök és egy csoport öltönyös Ügynökök, akik hasonló emberfelettivel rendelkeznek, a nyomában maradnak. Egy csengő publikus telefonhoz siet, majd eltűnik.

Phi-3 Mini 3.8B (szóval tudom, lényegesen kisebb):

>>> Translate this to Hungarian: At an abandoned hotel, a police squad corners Trinity, who overpowers them with superhuman abilities. She flees, pursued by the police and a group of suited Agents capable of similar superhuman feats. She answers a ringi ng public telephone and vanishes.
A térdos kedvezménye volt egy eltávolított szállodaben, a rendőrség kijelentései Trinitás alácja kiváltja, amelynek vagyok szuperhóziás kölcsönjének használata. A kíváncsi történt, amelyen az egzellensze, a rendőrök és egy személyes Agentszet kifejezésében megfelelő superhóziás képes kapcsolatban. Képviselt, egy kijelentési közösségi telefonon, csapadott a Trinitátok elszíneke.
(Note: Hungarian language might slightly differ from English when translating complex sentences involving specific scenarios and characters.)

[ Szerkesztve ]


MaCS_70
(félisten)

Köszönöm!

Ez tényleg érdekes volt!

Az azért vitathatatlan, hogy a Phi-3 Mini stílusa sokkal karakteresebb. :)

MaCS


Busterftw
(veterán)

De nem úgy es nem annyi mint az olaszban.

Modern English lacks grammatical gender in the sense of all noun classes requiring masculine, feminine, or neuter inflection or agreement; however, it does retain features relating to natural gender with particular nouns and pronouns (such as woman, daughter, husband, uncle, he and she) to refer specifically to persons or animals of one or other sexes and neuter pronouns (such as it) for sexless objects.


MaCS_70
(félisten)

Az angolban azért következetesebb az alany jelzése, mert éppen a nagyon egyszerű nyelvtan miatt van rá szükség.

MaCS


UnA
(Korrektor)
Blog

Ez nem volt igazán logikus indoklás ;) Mint ha a középkorban mondta volna egy szerzetes, hogy a latin azért egyszerű nyelv, mert minden tudományos és egyházi személy ezt használja...

Az angol nem az egyszerűsége miatt lett világnyelv, hanem a mögötte álló gazdasági és kulturális hatalom miatt.

@MaCS: angolban a múlt idő és a feltételes mód a "nem egyszerű" kategóriába esik nálam. Miután ráérzel, már működik, de ettől még nem egyszerű :)


ddekany
(veterán)

Amúgy lehet, hogy az adná a legjobb eredményt, ha az LLM "anyanyelve" egy LLM-ekhez kifejlesztett mesterséges nyelv lenne, ami logikusabb és strukturáltabb (nem ilyen szó spagetti) mint egy emberi nyelv. A "mag" csak ilyen nyelven lenne tréningezve, és elszigetelt külső rétegek fordítanánk az belső "anyanyelv" és az emberi nyelvek közt. Ha ez jobb eredményt ad a következtetés stb. terén, és így ezt a felépítést követik, akkor onnantól sokkal kevésbé lesz gond rádobni támogatást mindenféle alig beszélt nyelvekre, és nem okozna elvileg nyelv független dolgokban minőségromlást, ha angol helyett pl. magyarul beszélsz vele.

Nyilván egy ilyen AI anyanyelv kifejlesztése óriási munka, meg a kezdeti fordító rétegek tréningezése is trükkös (csak generált anyagon lehet, nincs meglévő). Szóval most senki nem ér rá erre. De talán csak idő kérdése, hogy ezt megugorják.

[ Szerkesztve ]


dolon75
(aktív tag)

szerintem az, hogy egy mesterséges nyelvről fordít egy másik AI magyarra, vagy angolrol, nagyjából mindegy.
a probléma az, hogy kicsi az a halmaz amivel magyarul treningezni lehet a modellt.
erre még jön az, hogy angol szövegek magyarra fordítása azért akad, ellenben egy új mesterseges nyelven irt szoveg magyarra fordítása, majd azzal a tanítás, szerintem nem oldható meg.


sztanozs
(veterán)
Blog

angolban a múlt idő és a feltételes mód a "nem egyszerű" kategóriába esik nálam. Miután ráérzel, már működik, de ettől még nem egyszerű
Mivel a felteteles mod konnyen modellezheto, illetve a multidonel csak a kiveteleket kell definialni, igy szvsz informatikai szempontbol igenis a "konyu" kategoriaba esik...


ddekany
(veterán)

A belső AI-natív nyelv célja nem a fordítás minőségének javítása az elképzelésemben, hanem rendszer "IQ-ának" (következtetési, rendszerezési, absztrakciós képességek) növelése. Viszont, míg jelenleg ritka nyelv alkalmazása esetén csökken a rendszer "IQ-ja", addig egy AI-natív nyelves felépítés esetén a választott ember-gép kommunikációs nyelv nem hatna ki rá (csak ha annyira nem ismeri már nyelvet, hogy félreérti amit kérdezel).

Igen, a betanítás trükkös egy nem létező nyelvre. Természetesen generálni kell hozzá a betanító anyagot, egyre jobbat és jobbat, több generáción át. Jelenleg is ezt teszik amúgy minden mással is. Azaz LLM generálja a betanító anyagot, amivel egy másik, kicsit jobb LLM-et tréningeznek. (Vagy sok esetben nem jobb, hanem kisebb LLM-et.)

[ Szerkesztve ]


dolon75
(aktív tag)

igen, értettem, mire gondoltál. :K

de ha az angolt vesszük, mint belső nyelv, akkor azért előrébb vagyunk, mintha még az angol szövegre is tanítani kellene, nem?
azaz igy már "csak" egy brutál jó angol magyar tolmács AI kellene elé.


Alaaf Pi
(aktív tag)

Aztán kezdd el indiaival tréningelni, fejleszteni.


dolon75
(aktív tag)

egy angol indiai tolmács AI annyira bonyolult lenne?


Alaaf Pi
(aktív tag)

Szerintem igen.


UnA
(Korrektor)
Blog

A nyelv kultúra nélkül halott dolog, ezért ez elméleti felvetésnél nem több.


ddekany
(veterán)

Ez egy gép amit mi állítunk elő, tehát ha te erre tanítod, akkor ez lesz az anyanyelve és kész. Nem jönnek a képbe társadalmi/szociális akadályok, mint pl. az Eszperantónál. Amúgy nekünk is van egyfajta belső nyelvünk, ami se nem magyar, se nem angol... Elvégre amikor gondolkodsz valamint, nem beszélsz a fejedben, csak "érzed" az fogalmakat és összefüggéseket, ahogy cikáznak a gondolatok a fejedben.


UnA
(Korrektor)
Blog

Nem igazán, nyelv nélkül nincs struktúrált gondolkodás. Ösztönös szinten lehet, de ezzel nem tudsz egy alacsonyabb szintről kitörni.


ddekany
(veterán)

Nem igazán mi? Amúgy ha visszanézed, azt mondtam, hogy egy szabályosabb és strukturáltabb mesterséges nyelv lehetne az "anyanyelve", stb.


ddekany
(veterán)

A cikk címe a marhaság. Régen is voltak pici LLM-ek, direkt túl kicsit ahhoz, hogy hasznosak lennének, de kutatási szempontból hasznos. Másfelöl az adott "intelligenciát" megütő modellek mérete 1 év alatt úgy csak nagyon sac/kb 20-ára csökkent. Így ami a legtóbb jött ki, az adott paraméter számmal gyakran a legjobb. Íg bizonyosan valóban ez a legerősebb ~3B paraméteres modell. De a szakadék ami a legjobb 7-8B-s és e közt van, azonnal érezhető. És a 1000+ B paraméteres modellek is még a régi gondokkal küzdenek (azaz, ha olyat kérdezel, amit nem tudtál te emberi aggyal kikutatni 15 pec alatt, akkor max. tipp amit mondanak, és jobbára hibásak).

üzenetek