Почему важно развивать технический казахский язык? Мнение экспертов
В Астане прошел Tech for Kazakh Language, организованный компанией Huawei Kazakhstan. Ивент собрал экспертов в области изучения казахского языка, которые обсудили пути его продвижения через современные технологии. Центральной темой стало обучение искусственного интеллекта технической и профессиональной лексике, а также решение проблемы недостатка казахскоязычного контента о технологиях и бизнесе. Подробности – в материале Digital Business.
«Техническая литература на государственном языке – важный инструментом для подготовки будущих айтишников»
На панельной сессии основатель издательства Steppe & World Publishing Раиса Кадер рассказала, что книги на тему бизнеса и технологий пользуются большим спросом не только в Казахстане, но и во всем мире. Однако их недостаток на казахском языке создает разрыв в уровне образования. Казахоязычным людям сложно найти качественную литературу, например, об искусственном интеллекте или криптовалютах.
«Если в Астане или Алматы свободно говорят на русском и английском, то за пределами этих городов есть множество молодых людей, которые не могут читать и понимать книги на этих языках. Им нужен качественный контент на казахском. Из-за его отсутствия разрыв в уровне образования становится слишком большим. Чтобы сформировать сильное экспертное сообщество, нужно создавать как можно больше контента на казахском языке», — отметила Кадер.
Однако постепенно литературу о различных технологиях начинают переводить на государственный язык. Huawei, например, перевела книгу о ключевых этапах становления компании, подходах к управлению и инновациям, а также о влиянии технологий на современный мир.
«Мы стремимся поддерживать локализацию знаний и технологий, особенно в тех областях, которые имеют ключевое значение для дальнейшего развития страны. Перевод книги на казахский язык — наш вклад в развитие казахскоязычной технической литературы и образовательной среды. Верим, что она вдохновит новое поколение инженеров и ИТ-специалистов», — отметила директор департамента по связям с общественностью Huawei Technologies Kazakhstan Ша На.
PR-менеджер Huawei Technologies Kazakhstan Айман Сахова отметила, что использование технического казахского языка в сфере информационных технологий – необходимость, которая требует к себе максимального внимания:
«Это шаг к созданию более комфортной языковой среды для казахстанских пользователей. Мы хотим, чтобы наши продукты и решения были максимально адаптированы к потребностям казахстанского рынка. И для этого нам нужны специалисты, которые свободно владеют техническим казахским языком и будут создавать новые инновационные решения.
Книга, которую мы презентуем, станет важным инструментом для всех, кто занимается развитием технического казахского языка. Она объединяет в себе глубокое знание казахского языка и современных информационных технологий. Хочу подчеркнуть, что Huawei продолжит поддерживать развитие технического казахского языка. Мы готовы сотрудничать с казахстанскими экспертами, образовательными учреждениями и государственными органами для достижения этой цели».
Книги, как уточнили в компании, распространяются бесплатно среди образовательных организаций.
Директор департамента цифровизации и автоматизации государственных услуг Министерства науки и высшего образования Нурсултан Махатов поддержал инициативу, подчеркнув важность казахскоязычной технической литературы для подготовки будущих айтишников.
«Я учился в казахской школе, рос в казахоязычной семье, но выбрал техническую профессию. Проработав 11 лет в ИТ, могу сказать, что в этой сфере английский и русский языки используются шире. Они имеют преимущество. Однако техническая литература на государственном языке – важный инструмент для подготовки будущих инженеров и ИТ-специалистов. Такие инициативы, как перевод книг мировых технологических компаний, стимулируют интерес молодежи к современным технологиям», — отметил Махатов.
«Важно создавать больше контента на казахском»
Одной из главных проблем перевода зарубежной литературы, по мнению участников дискуссии, остаются языковые кальки — дословные заимствования из других языков. Часто бывает так, что лингвисты и филологи ломают голову над тем, как перевести технические термины и адаптировать сленги. В итоге они делают не смысловой, а дословный перевод. Например, переводят словосочетание «егіз қозыдай» – «как близнецы ягнята», хотя оно означает «как две капли воды».
«В переводческой сфере существует большая проблема: при переводе с английского, русского или других языков часто используются кальки. Из-за ее большого количества казахский язык становится непонятным, усложняется, а тексты значительно увеличиваются в объеме», — подчеркнула Раиса Кадер.
Такая проблема актуальна не только для печатной литературы, но и для цифровых технологий. Нейросети, обученные казахскому языку, нередко выдают тексты, которые трудно понять.
Генеральный директор республиканского национально-научно-практического центра «Тіл-Қазына» Макпал Жумабай рассказала, что для обучения искусственного интеллекта нужно большое количество данных. Тогда он сможет правильно использовать казахский язык. В общей сложности требуется как минимум 40 миллиардов токенов информации — то есть 40 миллиардов случаев, когда слова используются в разных контекстах.
«За год мы собрали около 2 миллиардов. Это хороший старт для Казахстана, но по мировым меркам мало. Чтобы улучшить ситуацию, важно создавать больше контента на казахском: писать книги, выпускать статьи, добавлять любые качественные данные в общий банк знаний.
Уже собрали материалы за последние 30 лет: книги, научные статьи, телевизионные программы, газеты, журналы, методические пособия и диссертации. Обработали все доступные данные, которые не относятся к государственным секретам. Мы завершили анализ текстов XX века и сейчас по собственной инициативе начинаем работать с текстами XIX века», — рассказала она.
«Мы не можем доверить данные нашего государства другим структурам»
На основе собранных данных в Казахстане разрабатывается национальная языковая модель на базе KAZ-LLM. Нурсултан Махатов отметил, что это поможет решить проблемы не только с качеством перевода, но и с конфиденциальностью.
«Почему у государственных служащих нет возможности использовать в работе ChatGPT и загружать туда служебные документы? Потому что серверы хранятся за рубежом. Мы не можем доверить данные нашего государства другим структурам — необходимо хранить и обрабатывать все на собственных серверах. Поэтому создаем свой продукт», — подчеркнул Махатов.
Министерство науки совместно с Министерством цифровизации создало крупный консорциум, в который вошли Казахский национальный университет имени аль-Фараби и Евразийский национальный университет имени Л.Н. Гумилева, а также организация «Тіл-Қазына».
Сейчас формируется база на казахском языке, включающая 48 тысяч шаблонов документов: заявления, жалобы, автобиографии. На их основе обучат языковые модели, чтобы в будущем они могли без ошибок справляться с запросами пользователей. Над этим работают лингвисты, привлекаются узкие специалисты, которые могут разъяснить нюансы и применение терминов.
Махатов отметил, что востребованность государственного языка растет с каждым днем. Например, в прошлом году курсы на платформе Coursera начали переводить на казахский язык. Результаты мониторинга показали: казахскоязычные курсы оказались самыми популярными среди студентов в Казахстане, обогнав английские и русские. Huawei поддерживает инициативу развития казахского языка через технологии и переведет три ключевых курса о генеративном ИИ на казахский язык.