Фото: https://www.facebook.com/tsybart
Міністерство економіки, довкілля та сільського господарства України розпочало збір рукописних документів для розширення відкритого датасету українського рукописного тексту RUKOPYS, метою якого є навчання моделей штучного інтелекту розпізнаванню різних стилів письма та епох.
Згідно з повідомленням у телеграм-каналі Мінекономіки, до співпраці запрошують бібліотеки, музеї, державні та приватні архіви, заклади освіти, організації з оцифрування культурної спадщини, а також приватних колекціонерів і родини із сімейними архівами. Для наповнення датасету збирають листи, екзаменаційні роботи, домашні завдання, щоденники, нотатки, архівні документи різних періодів та орфографій, навчальні роботи, екзаменаційні зошити й конспекти.
Оцифрування та обробку наданих матеріалів забезпечать організатори проєкту. Юридичним публікатором датасету виступає Український католицький університет (УКУ) на основі норми про виняток для text & data mining (ст. 22 закону "Про авторське право і суміжні права"). Дані оприлюднять у відкритому доступі під ліцензією CC BY-NC-SA 4.0 із обов’язковим зазначенням та атрибуцією всіх джерел.
Як повідомлялося, у травні заступник міністра економіки, довкілля та сільського господарства Олександр Циборт анонсував створення першого великого відкритого датасету RUKOPYS у співпраці держави, університетів та AI-спільноти. База даних розробляється для навчання ШІ-моделей з метою подальшої цифровізації держпослуг, зокрема для автоматичного розпізнавання заяв, журналів і довідок у системі "єДозвіл". Проєкт реалізується Мінекономіки спільно з Мінцифри у партнерстві з AI HOUSE та УКУ.