Минцифры призывает украинские медиа, бизнес и учебные заведения бесплатно делиться своими текстами для обучения «национальной языковой модели».
Об этом сообщили в Министерстве цифровой трансформации, которое вместе с «Киевстаром» работает над запуском национального LLM. Речь идет о создании украинского аналога ChatGPT на локальных данных. Модель будет лучше понимать язык и контекст страны, а еще станет основой для ряда ИИ-сервисов.
«Национальная LLM станет базой для создания ИИ-помощников в госсекторе и бизнесе. Это будут украинские аналоги Gemini и ChatGPT: такие же удобные и технологичные, но обученные на наших реалиях и контексте», — отметили в Минцифры.
Чтобы обучить такую модель, нужны терабайты качественного украиноязычного контента. В министерстве прямо обращаются к тем, кто этот контент создает, — редакциям, издательствам, университетам, исследовательским центрам и компаниям.
«Если у вас есть качественные тексты на украинском — вы нам нужны. Ваш контент станет фундаментом для национального ИИ, который будет давать ответы миллионам украинцев», — говорят они.
Для тренировки модели собирают различные типы данных: новости, интервью, публицистику, учебные и научные материалы, художественные тексты, бизнес-документацию и технические описания. Ниже полный список:
- Медиа:новости, интервью, блоги, публицистика.
- Наука и образование:контент курсов, учебники, научные работы, диссертации.
- Литература:художественные произведения, критика, рецензии.
- История:оцифрованные архивные материалы.
- Бизнес-данные:техническая документация, описания товаров, открытые отзывы, материалы корпоративных блогов.
В Минцифры говорят, что медиа и издатели должны задать языковой стандарт. От университетов и ученых ожидается наполнение модель знаниями, а бизнес поможет ориентироваться в реальных процессах и рынке. Ведомство отдельно подчеркивает юридическую сторону. Условия передачи данных будут прозрачными, материалы используют только для развития украинского ИИ, а всех партнеров упомянут в официальном отчете.
«Мы понимаем ценность вашей интеллектуальной собственности. Поэтому подготовили прозрачные юридические условия, чтобы ваши материалы были защищены и работали исключительно на усиление украинского ИИ», — отметили в Минцифры.
Подать заявку о сотрудничестве по сбору данных можно через специальная форма. Отметим, что из-за сложности со сбором качественных данных, в частности из-за юридических и технических ограничений, тестирование беты национальной LLM перенесли на весну в 2026 году.