Freedom Broker

Реклама

  1. Главная
  2. Технологии
  3. Для создания модели казахского языка Kaz LLM начали собирать данные

Для создания модели казахского языка Kaz LLM начали собирать данные

Для этого будут использовать сервис Hugging Face

Автор:
Капитал - Для создания модели 
казахского языка Kaz LLM начали собирать данные

Для создания и запуска большой модели казахского языка АО «Национальные информационные технологии» («НИТ») приступает к использованию сервиса от лидера в области машинного обучения – Hugging Face. На базе платформы будет организован открытый сбор данных, к которому могут присоединиться профессиональное сообщество Казахстана и держатели открытых данных, сообщает корреспондент центра деловой информации Kapital.kz со ссылкой на пресс-службу «НИТ».

Что такое Hugging Face?

Hugging Face – ведущая платформа, предназначенная для обмена исследованиями в области машинного обучения, на базе которой пользователи могут разрабатывать инструменты и создавать ИИ-модели. Пользователи платформы взаимодействуют с открытым исходным кодом, что делает искусственный интеллект более доступным и поощряет культуру обмена знаниями и прогрессом. Hugging Face помогает делиться моделями ИИ, которые далее в своей работе используют другие компании, включая Google, Microsoft Corp., Amazon, Meta Platforms Inc и другие. За 2023 год на платформе было зарегистрировано более 1,2 млн пользователей, а только в январе 2024 года сайт посетили почти 30 млн человек. В числе самых активных пользователей сервиса жители США, Китая, Японии и Индии.

Для чего это нужно?

Создание современной языковой модели казахского языка – это важный шаг к укреплению цифровой независимости Казахстана и продвижению национальной культуры в глобальном цифровом пространстве. Первым этапом к созданию любой языковой модели является сбор данных.

В результате общего сбора данных и будет создана высококачественная модель обработки казахского языка (NLP). В будущем это поможет не только улучшить автоматический перевод, но и повысить качество и точность обработки текстов на казахском языке в целом.

Представители профессионального IT-сообщества и держатели открытых данных могут присоединиться к сбору. Сбор данных будет осуществляться на специально созданном аккаунте АО «НИТ». Пользователи могут, авторизовавшись на платформе, загружать файлы на аккаунт huggingface.co/nitec. Загрузке подлежат текстовые файлы разных стилей и жанров на казахском языке в форматах txt, .csv, .json.

Читайте также

При работе с материалами Центра деловой информации Kapital.kz разрешено использование лишь 30% текста с обязательной гиперссылкой на источник. При использовании полного материала необходимо разрешение редакции.

Вам может быть интересно

    Читайте Kapital.kz в

    TelegramInstagramFacebook
    telegramtelegram