Sâmbătă, 5 noiembrie va avea loc, în cadrul Universității Politehnica București, LiRo NLP Hackathon, pe tema Procesării Limbajului Natural dedicat limbii române. Hackathonul va dura 12 ore și este adresat oricărei persoane interesate, din toată țara, participând fie pe cont propriu fie în echipă. Deoarece dorim încurajarea studenților, ei vor fi eligibili în a primi premii de până la 2000 euro. Acest eveniment însă nu este un hackathon „clasic”, ci un hibrid între hackathon și workshop. Astfel, cei care doresc să învețe cum funcționează un model de Machine Learning / NLP, o pot face în sesiunile de mentoring de dimineață, desfășurate în paralel cu hackathonul. Ulterior, dacă doresc, pot alege să continue participarea în hackathon cu modelul lor proaspăt creat!Evenimentul este axat pe task-urile existente în platforma LiRo, un punct focal unde sunt agregate toate seturile de date NLP existente în limba română, precum și topul modelelor celor mai performante.Astfel, participanții vor putea alege una sau mai multe probe:1. Named Entity Recognition – Poți să detectezi cu precizie care secvențe de cuvinte reprezintă adrese, persoane, date, unități de măsură, etc, într-un text?2. Emotion Detection – Primești un tweet în limba română. Poți spune dacă exprimă bucurie? Surpriză? Poate amândouă? Sau este un tweet neutru?3. Semantic Text Similarity – Evaluează în ce măsură două propoziții se referă la același lucru (similaritate semantică maximă) sau nu au legătură (similaritate zero).4. Sentence Segmentation – Fiecare propoziție se termină cu punct, nu? Pare ușor, așa că arată-ne că poți crea un model care să țină cont de semne de punctuație multiple, abrevieri, notații imbricate, ghilimele, citate, dialog sau enumerări!5. Diacritic Restoration – Încearcă să pui diacritice propoziției „Fata sta in fata, tine camasa de in in mana si canta nota si.” 🙂În cadrul evenimentului ne vom „juca” cu modele tip Transformer, modele ce obțin performanțe impresionante în majoritatea problemelor precum clasificare text (e.g. BERT/encoder) sau generare text (e.g. GPT/decoder). Participanții vor avea acces, în premieră, la primul model transformer encoder-decoder (tip T5) preantrenat pentru limba română!Tot în cadrul evenimentului, îl vom avea invitat într-o sesiune specială de discuții pe Sebastian Ruder, cercetător Google pe teme NLP.Nu în ultimul rând, salutăm deschiderea companiilor către a sponsoriza acest tip de evenimente – participanții vor putea lua contact cu sponsorii hackathonului, companii orientate puternic către Machine Learning: Adobe, Termene.ro și DRUID AI.