© фото предоставлено институтом

Новая открытая система «Писец», разработанная ученым НГУ, пройдет проверку на знание русского языка. Это необходимо, чтобы сравнить ошибки речевого искусственного интеллекта с теми, что допускают люди в письменной речи.

Юбилейный 20-й Тотальный диктант впервые будет писать искусственный интеллект. Новая открытая система «Писец», которую разработал научный сотрудник Лаборатории прикладных цифровых технологий Международного научно-образовательного математического центра НГУ и сооснователь стартапа «Сибирские нейросети» Иван Бондаренко, примет участие в этой ежегодной акции наравне с человеческим интеллектом, и так же, как и другим участникам Тотального диктанта, ему выставят оценку в зависимости от количества допущенных грамматических и пунктуационных ошибок.

— Идея создать систему «Писец» у меня возникла год назад. Изначально она предназначалась для помощи соискателям научной степени в нелегкой работе по составлению стенограммы заседания диссертационного совета. По моему замыслу, новая система должна была владеть русским языком и правильно записывать то, что читает диктор, верно расставляя знаки препинания, соблюдая правила грамматики и орфографии русского языка. Обычно у человека на эту работу уходит довольно много времени, поскольку длительность аудиозаписи заседания диссертационного совета составляет час или два. Искусственный интеллект избавил бы диссертанта от этой работы, существенно сэкономив время. Так что изначально «Писец» был задуман как система для стенографирования. Безусловно, как распознаватель речи она не идеальна. С одной стороны, «Писец» не всегда правильно распознает слова, доля ошибок составляет 20-30 %, но даже в такой ситуации наличие подстрочника существенно облегчает диссертанту работу по составлению текста стенограммы – ему не надо составлять ее с нуля, достаточно внести правки. С другой стороны, «Писца» можно подвергнуть критике за излишнюю дословность записи, так что потребуется стилистическая правка, — рассказал Иван Бондаренко.

Над открытой системой «Писец» Иван Бондаренко работал в свободное время. Ученому помогал аспирант механико-математического факультета Даниил Гребенкин, который создал аугментатор, с помощью которого появилась возможность искусственным образом расширять обучающую выборку для «Писца», добавляя к сигналам, полученным в чистых условиях, модели шумов, и записывая речь в условиях, аналогичных реальным. Также к проекту недавно подключились двое студентов-четверокурсников — Роман Дерунец и Михаил Клементьев, которые помогают в подготовке новой версии «Писца». Ряд тестирований «Писец» уже прошел, теперь ему предстоит серьезное испытание — выполнить задание, предназначенное для человеческого интеллекта. Такого рода тесты укладываются в общую парадигму проверки искусственного интеллекта.

— Еще в 2017 году вышла статья Гэри Ф. Маркуса, профессора кафедры психологии Нью-Йоркского университета и основателя компании Geometric Intelligence, в которой он задавался вопросом, как лучше отличить искусственный интеллект от человеческого с учетом того, что тест Тьюринга уже не позволяет сделать это эффективно из-за своей чрезмерной простоты и известных случаев «пропуска цели». Один из описанных в этой статье новых способов проверки искусственного интеллекта заключается в том, чтобы использовать для машин те же стандартные тесты по научным и другим предметам, которые проходят школьники и студенты. Диктант как раз является стандартным тестом на грамотность и владение языком. А «Тотальный диктант» именно ввиду своей тотальности позволяет собрать большой статистический материал по ошибкам людей и сопоставить эти ошибки с ошибками речевого «искусственного интеллекта, — объяснил Иван Бондаренко.

К Тотальному диктанту «Писца» готовили заранее. Неделю назад его создатель с помощниками из числа студентов начали работу над обновлениями, чтобы 20 апреля выставить на испытания обновленную версию системы. Обновления направлены на совершенствование знаний «Писца» в области пунктуации и структуры текста. Его «учили» более грамотно расставлять знаки препинания, разбивать текст на предложения и абзацы, а также отделять сам текст диктанта от реплик и комментариев диктующего. Иван Бондаренко отметил, что «Писец» стал умнее, но тем не менее, Тотальный диктант вряд ли напишет на высокую оценку. По его прогнозам, сами слова искусственный интеллект напишет правильно, но с расставлением знаков препинания вряд ли справится – пунктуация пока остается его слабым местом. Обновления могут снизить количество таких ошибок, однако для положительной оценки этого может быть недостаточно — чтобы получить «двойку», достаточно допустить 5 ошибок. Однако ученых интересуют вовсе не оценки «Писца» и не соревнование искусственного интеллекта с человеческим, а анализ и сравнение ошибок, которые они допускают.

редакция по материалам Новосибирского государственного университета

© фото предоставлено институтом

"Обзор статей и публикаций"
Наука и люди

Теперь можно распознать опасную форму рака мозга

При одобрении этого метода пациентам больше не нужно будет делать биопсию. Достижение принадлежит британским онкологам. Им удалось изобрести новый анализ крови, и теперь можно определять самый опасный вид рака мозга, куда вошли глиальные опухоли и глиобластомы. Анализ крови…
Флора и фауна

Комнатные мухи

Дело в том, что у насекомых данного вида ротовой аппарат служит для лижущих и сосущих функций. Прокусить чью-то кожу, чтобы пить кровь, они…
Из истории

Не каждый отпечаток пальца уникален

Как известно, отпечатки пальцев используют, чтобы установить причастность человека к преступлению. Судебно-медицинские круги считают, что…