Искусственный интеллект научился понимать арабский язык — но чего ему это стоило

Арабский язык оказался сложен в изучении не только для человека, но и для машины. Владимир Арлазаров, к.т.н., генеральный директор компании Smart Engines объясняет почему.

Самое интересное, что шкала сложности изучения языков действительного существует. Например, американский Институт зарубежной службы при Госдепе делит все языки на 4 категории в зависимости от того, сколько часов нужно носителям английского языка на их изучение до уровня свободного владения. Самые сложные языки — это арабский, китайский, корейский и японский, и на их изучение придется потратить не менее 2200 часов. Тогда как на испанский, к примеру, не более 600 часов.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ
На изучение арабского языка придется потратить не менее 2200 часов.
На изучение арабского языка придется потратить не менее 2200 часов.
Pexels

Что делает арабский таким сложным для человека?

Чтобы ответить на этот вопрос, достаточно вспомнить знаменитый анекдот:

— Ты француз?

— Да.

— О, а скажи что-нибудь на арабском?

Особенность номер один — это отсутствие единого арабского. Арабский язык является основным языком сразу во многих странах мира, что неизбежно ведет к возникновению различных местных диалектов, отличающихся друг от друга так же сильно, как русский от польского, и ни у одного из этих диалектов нет письменного варианта.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Особенность номер два — письменный арабский язык существует в как минимум двух формах. Это классический арабский язык или язык Корана, жесткая, довольно архаичная форма языка. Остается практически неизменной со времени написания Корана и используется в теологических кругах до сих пор. Его использование ограничено, в первую очередь, строгим религиозным контекстом, и в этом отношении он сродни русскому церковно-славянскому языку. Вторая форма — это литературный арабский язык или Modern Standard Arabic(MSA). Это наиболее широко используемая и универсальная форма арабского языка из всех существующих. Именно на нем вещают международные арабские каналы BBC Arabic или катарский «Аль-Джазира», на нем пишется арабская Википедия. Сегодня практически все образование в арабском мире ведется на MSA, и он действительно становится языком панарабского общения. В конце концов, арабский язык именно в этой форме является одним из 6 официальных языков ООН (английский, французский, русский, испанский, китайский и арабский) и имеет официальный статус во всех 22 арабоязычных странах.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ
РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ
Классический арабский язык или язык Корана, жесткая, довольно архаичная форма языка.
Классический арабский язык или язык Корана, жесткая, довольно архаичная форма языка.
Pexels

С точки зрения письменности, уникальным арабский язык делают:

  • письменность справа налево,
  • консонантное письмо (пишутся только согласные, а гласные подразумеваются),
  • использование лигатур, то есть связки из двух букв, имеющей специальное начертание (слитное написание нескольких букв). Одна лигатура — лям-алиф — является стандартной, и написание этой пары букв иначе, чем при помощи лигатуры, не допускается. Остальные лигатуры необязательны, и их использование зависит от выбранного каллиграфического стиля.
РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Очевидно, это довольно сложный для изучения язык в силу многообразия форм.

Искусственный интеллект VS арабский

Для ИИ самыми легкими и понятными будут языки, подходящие по следующим критериям:

Не очень большая вариативность одного символа и малое количество промежуточных вариантов буквы (или какого-нибудь символа), что удобно для ИИ. К примеру, буква А может быть написана как а или А.
Слова легко делятся на символы, а границы между символами легко четко проставить. То есть вы понимаете, где заканчивается один символ и начинается другой.
Отсутствие или малое количество мелких деталей, ведь они неизбежно съедаются при бликах, плохом качестве цветопередачи, малом разрешении.

Арабский язык усложняет задачу ИИ во всех трех случаях. Вот как текст может выглядеть в документе:

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ
Это изображение было создано искусственно с учетом реальных искажений, вносимых съемкой в неконтролируемых условиях.
Это изображение было создано искусственно с учетом реальных искажений, вносимых съемкой в неконтролируемых условиях.
Популярная механика
РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Из-за большого количества точек, которые в плохих условиях для распознавания (темно, блики, размазано, плохая печать) делают любой документ практически нечитаемым, а также множества лигатур, арабский и является, пожалуй, самым требовательным к качеству ИИ. Поэтому постоянное обучение наших нейросетей распознаванию арабского языка в документах любого качества — это большое достижениеSmart Engines. На данном этапе документы на арабском языке стали важным дополнением к списку данных, которые мы распознаем: паспорта РФ и 192 стран; водительские права, ID, заграничные паспорта, визы, свидетельства, СТС, ПТС и другие документы — устойчивое к качеству изображений распознавание смартфоном, планшетом, сервером, веб-камерой, на видео, фотографиях/сканах.