Сможет ли нейросеть расшифровать древние языки? Отвечает филолог Валерий Шульгинов
Искусственный интеллект и тайны человечества
Шампольон, Гротефенд, Кнорозов… Многие ученые годами бились над расшифровкой египетских иероглифов, шумеро-аккадской клинописи, языка майя. А теперь у человека есть нейросеть. Станет ли она волшебной палочкой, которая поможет не просто расшифровать древние языки, но и восстановить их звучание, как в роликах на YouTube? Объясняет ученый-филолог Валерий Шульгинов, научный редактор книги «Язык как инстинкт» Стивена Пинкера.
Плюс нейросетевого подхода в том, что искусственный интеллект может увидеть закономерности там, где их не видит человек. Он знает множество дисциплин и способен соединить вещи, которые, может быть, в сознании человека не соединяются. Поэтому все зависит от объема данных, который есть у нейросети.
Простой пример — эволюция языков. Например, есть губно-губные и губно-зубные согласные. Звук [п] — губно-губной. Звук [ф] — губно-зубной, ведь мы используем не только губы, но и зубы при его артикуляции. И ученые предполагают, что развитие последних звуков связано с переходом от собирательства к сельскому хозяйству. Пища стала мягче, изменился прикус — и появился новый тип звука.
И эта группа согласных стала расширяться. Что это доказывает? То, что язык тесно связан с географией и образом жизни людей. Все это влияет на артикуляцию. Так, на развитие тоновых языков мог повлиять климат: при повышенной влажности возникают интонации. В сухом климате интонировать же, наоборот, трудно.
Еще один пример — изменение письменности тамильского языка, одного из древнейших классических языков в мире.
На артефактах III века до нашей эры можно увидеть простые графемы с острыми углами. Однако через тысячу лет эти символы приобретают дополнительные черты, становятся плавными и менее угловатыми.
Лингвисты предполагают, что такие изменения произошли из-за использования банановых листьев в качестве материала для письма. Банановые листья легко проткнуть, поэтому писавшему было необходимо скруглять символы и добавлять витиеватые соединительные линии. И снова окружающий мир и развитие культуры оказывают влияние на развитие языка.
Все вышеперечисленное — это гипотезы. Но искусственный интеллект может собирать большой массив данных и проверять такие вещи, выявляя закономерности.
Однако надо отметить, что почти все базы текстов сейчас хранятся в текстовом виде. Очень мало аудиозаписей, и вряд ли мы сможем достоверно восстановить речь даже XI или XII века. Мы можем только предположить, какой она была. Здесь лингвисты могут лишь с достаточно высокой степенью точности реконструировать аспекты произношения, опираясь на письменные источники, ошибки в написании, которые могут указывать на произношение, или сравнивая произношение в родственных языках.
Мы, конечно, можем предположить, как звучал язык. Для этого нужно ориентироваться на экстралингвистические признаки и думать, как бы звучал язык в тех условиях, обществе, экономике, социуме. Но нейронные сети смогут только восстановить или достроить те графы знаний, которые у нас есть.
То же касается и текста. Чем больше объем оригинальных источников, тем проще найти закономерности. И это действительно может помочь в расшифровке тех языков, которые мы еще не знаем. Но есть ли у людей столько данных? Не стоит видеть в нейросети волшебную палочку. Она не может наколдовать то, чего нет, но может стать своеобразной линзой, которая позволит лингвистам рассматривать существование языка в широком контексте человеческой культуры.