Savanții polonezi au dezvoltat un model lingvistic pentru producerea de texte lungi

septembrie 28, 2023 0

Cercetătorii polonezi au dezvoltat un model de limbaj mare, LongLLaMA, bazat pe programul OpenLLaMA creat de Meta. Este disponibil pentru toată lumea pe Internet.

Modelele mari de limbaj open source permit cercetătorilor să facă lucrări avansate. Ele pot fi folosite pentru toate sarcinile cu care chatbot-urile îi ajută deja pe oameni. Aceasta include, de exemplu, crearea de text, editarea textului, vorbirea cu utilizatorul, crearea de rezumate sau traducerea.

LongLLaMA, spre deosebire de ChatGPT, nu are o interfață online, dar oricine poate descărca modelul de pe site HuggingFace Și rulați-l pe computer.

Modelul poate suporta de 64 de ori mai mult text decât ChatGPT, spun creatorii săi într-un comunicat de presă trimis către PAP.

LongLLaMA a fost dezvoltat de: Szymon Tworkowski, Konrad Staniszewski, Mikołaj Pacek și Piotr Miło – cercetători asociați cu Idei NCBR, Universitatea din Varșovia Și Academia Poloneză de ȘtiințeYuhuai Wu – co-fondator al xAI, startup-ul lui Elon Musk, și Henryk Michalewski – asociat cu Universitatea din Varșovia și Google DeepMind.

„LongLLaMA este un model în limba poloneză la scară largă, disponibil pentru oricine pe Internet. Poate gestiona 8.000 de jetoane simultan sau aproximativ 30 până la 50 de pagini de text, iar în cazul unor sarcini mult mai mult, până la 256.000 de jetoane. , „Deși acesta este doar un rezultat tehnic”, spune liderul echipei Dr. Happ. Piotr Milos.

Când Meta, proprietarul Facebook, a lansat OpenLLaMA, s-au adunat oameni de știință din întreaga lume, inclusiv cei care lucrează sub conducerea profesorului. Miłoś, l-au dus la atelier și l-au modificat.

„LongLLaMA nostru este capabil să gestioneze contexte mult mai mari decât era posibil anterior, ceea ce înseamnă că poate „mânca” mai mult text dintr-o singură bucată”, explică profesorul. Milos.

După cum explică el, LongLLaMA poate gestiona date de intrare foarte lungi. Datorită acestui fapt, generează răspunsuri mai consistente și mai precise decât alte modele.

LongLLaMA poate gestiona orice cantitate de context fără a-l trunchia și împacheta, așa cum se arată în testele cheilor de acces.

Cercetătorii au investigat dacă LongLLaMA, după ce a primit un prompt foarte lung (o comandă complexă), ar fi capabil să-și amintească parola dată inițial. OpenLLaMA a putut gestiona doar 2000 de jetoane, iar în contexte mai lungi eficiența sa a scăzut la zero. Între timp, LongLLaMA a menținut 94,5%. Precizie după primirea unei solicitări pentru 100.000 de jetoane și 73% precisă după primirea a 256.000 de jetoane.

Acest model poate produce în prezent texte coerente de 8.000 de caractere. Potențial – până la 256.000 de pictograme, care ar depăși semnificativ, printre altele, ChatGPT – evaluat de creatorii săi. Consumă relativ puțină energie – un procesor este suficient pentru a folosi LongLLaMA – și rulează foarte repede.

„Cum vă puteți imagina diferența? Dacă presupunem, pentru simplitate, că simbolul este un singur cuvânt, atunci să afirmăm că 2.000 de cuvinte constituie un articol de aproximativ 7 pagini. 256.000 de cuvinte este aproximativ lungimea romanului Harry Potter și Ordinul „Fenixul (257.000 de cuvinte.) Sau Ulise (265.000 de cuvinte)” – comparați savanții polonezi.

„ChatGPT este un produs comercial. Este optimizat pentru o utilizare distractivă. Modele precum LongLLaMA emit informații brute pe care se poate construi ceva, de exemplu, analiza textului sau producerea de coduri”, explică profesorul. Milos.

Software-ul open source poate fi modificat de profesioniștii IT din întreaga lume, ceea ce îl deosebește de ChatGPT care nu este pus la dispoziție public, deși se știe că se bazează și pe arhitectura Transformer.

După cum explică autorii modelului polonez, este un tip de arhitectură de rețea neuronală care analizează textul pentru a discerne conexiunile complexe între cuvinte în mai multe straturi, modele de învățare bazate pe cantități uriașe de date.

Această tehnologie a revoluționat procesarea limbajului natural, permițând chatbot-urilor să genereze text, să traducă, să converseze cu utilizatorul și multe alte sarcini la un nivel care anterior nu era disponibil pentru inteligența artificială.

Profesorul Miłoś explică că atunci când punem o întrebare unui chatbot folosind Transformer, acesta schimbă textul în jetoane. Sunt informații, de obicei între o literă și un cuvânt. În propoziția „În 2023, dintr-o dată, chatboții ne-au schimbat viața.” Un chatbot poate vedea, de exemplu, șapte cuvinte, numărul 2023, două virgule și un punct. Împărțind textul în simboluri, AI poate procesa informațiile în mod eficient.

Cu toate acestea, numărul de jetoane pe care un chatbot le poate accepta este limitat – în cazul ChatGPT 3.5, jetoanele maxime sunt 4096, pentru OpenLLaMA – 2000, pentru Google Bard – aproximativ 1000.

Așadar, atunci când punem o întrebare lungă chatbot-ului sau furnizăm o mulțime de informații, este posibil să fie nevoie să tăiem sau să ștergem unele părți pentru a atinge limita de token. Majoritatea programelor de chat existente nu pot analiza o carte întreagă, o conversație lungă sau un articol.

„Potențialul întreg al modelelor de limbaj mari este adesea limitat de cantitatea de context pe care un anumit model îl poate prelua – spune Piotr Milo. – De aceea am introdus Focused Transformer (FoT), o tehnică care utilizează un proces de antrenament inspirat de divergenți. Acest lucru permite abordarea Inovatorul adaptează LLM-urile existente astfel încât acestea să poată face față unui context mai larg.

Potrivit cercetătorului IDEAS NCBR și PAN, LongLLaMA este o mare realizare deoarece arată că modelele mari de limbaj pot depăși limitările legate de lungimea revendicărilor și pot produce texte lungi care vor fi utile oamenilor.

O publicație dedicată LongLLaMA – „Centered Transformer: Variational Training for Contextual Measurement” – a fost acceptată la conferința NeurIPS 2023 din New Orleans. https://arxiv.org/abs/2307.03170

Știința în Polonia

colonel / bar /

Bona Dea

„Creator. Bursă de alcool. Maven web extrem de umil. Scriitor rău. Tv ninja.”

Bona Dea

"Creator. Bursă de alcool. Maven web extrem de umil. Scriitor rău. Tv ninja."