Как часто вы пользуетесь голосовыми поиском, либо голосовым ассистентом на своем смартфоне? С каждым годом количество поисковых запросов с помощью голоса растет в геометрической прогрессии, буквально каждый пятый владелец мобильного устройства не упускает возможность сэкономить время и «завойсить» интересующий вопрос в интернете.
В 99% случаев человек даже не догадывается, что разговаривает с роботом. Как голосовые помощники прошли путь от простых программ до сложных систем, рассказывает Sauap.org.
Современные технологии делают нашу жизнь проще. Еще в начале 2000-х мы пользовались кнопочными мобильными телефонами, в интернет выходили только с компьютеров и даже не мечтали о том, чтобы заказывать такси или доставку еды в офис буквально в один клик. За прошедшие 20 лет смартфон стал универсальным инструментом для решения многих задач, и то, что раньше было недоступно, сегодня никого не удивляет.
Аналогичная ситуация и с голосовыми помощниками. Могли ли мы представить еще десять лет назад, что по голосовой команде можно будет включить либо погасить свет в комнате или построить оптимальный маршрут до работы?
Мы регулярно сталкиваемся с ответами голосовых помощников при обращении в компании. Во многом таких показателей вендоры разработки достигают благодаря внедрению технологий, направленных на развитие человекоподобности голосовых ассистентов. Благодаря таким практикам люди все чаще принимают робота за человека, а он в свою очередь эффективнее справляется с поставленными задачами: подтверждает записи, отрабатывает претензии или верифицирует абонентов. Но голосовые помощники прошли долгий путь, прежде чем их стали путать с людьми.
Голосовые помощники работают на базе технологии синтеза и распознавания речи, а под капотом у них движок, состоящий из нейросети, который обучают различным сценариям диалога, или платформа с набором правил.
Стоимость разработки голосового помощника зависит от его функциональности. Базовый набор, позволяющий решению озвучивать справочную информацию и решать заданные задачи, обойдется компании в несколько десятков миллионов тенге. Разработка более умных решений потребует более значительных затрат.
Как голосовые ассистенты научились общаться
Изобретение ученого, сотрудника Американской лаборатории Bell — Гомера Дадли — является самым первым электронным речевым синтезатором. Аппарат Voder был представлен в 1937 году. Интонация речи вводились ассистентом с клавиатуры, напоминающей таковую у музыкальных инструментов, на презентации в видео, слышно, что аппарат умеет «выговаривать» лишь одно имя, но с разными интонациями.
В 1952 году был представлен первый голосовой распознаватель чисел от 1 до 9, разработанный в стенах лаборатории Bell. Размеры аппарата были внушительными даже для того времени. Его высота составляла порядка 180 сантиметров. При соблюдении того условия, что диктующий цифры человек является для аппарата «знакомым», система работала практически беспрекословно, с точностью около 90%, выходит погрешность в распознавании речи была 10%. На сегодняшний день, голосовые ассистенты имеют погрешность всего в 5%, то есть это уже является уровнем человеческого звуковосприятия.
Работа с распознавателем чисел происходила с помощью телефона: абонент произносил число в трубку, система распознавала звук, как электрический сигнал и сопоставляла его с загруженными ранее в систему голосовыми референсами фраз.
Первый голосовой помощник появился в 1961 году. Компьютер IBM Shoebox распознавал цифры от 0 до 9 и 6 голосовых команд («плюс», «минус», «итог», «промежуточный итог», «неверно» и «выключено»). Компьютер преобразовывал голос диктора в задачи и выполнял сложные математические расчеты.
Спустя 11 лет в 1972 году в университете Карнеги — Меллона исследователи сыграли в шахматы против компьютера, используя только голос. Разработанная учеными система распознавала 1000 голосовых команд.
Как и в большинстве случаев, развитие технологий стала двигать несерьезная, не привлекающая со стороны взрослых внимания, и на первый взгляд, не представляющая собой никакой пользы вещь — игрушка. Говорящая кукла Джулия (Julie the talking doll) появилась на прилавках американских магазинов в 1987 году. Ее уникальность состояла в том, что ребенок мог научить куклу распознавать его речь.
В 1990 году компания Nuance Communications представила Dragon Dictate, первую программу по распознаванию голоса для обычных пользователей. Ее можно было купить за 9 тыс. долларов — за эти деньги человек получал пишущую машинку, работающую по голосу. Программа перерабатывала речь в текст со скоростью 40 слов в минуту и отправляла получившееся сообщение принтеру на печать. Базовый словарный запас программы составлял 30 тыс. слов.
В 1997 году от той же компании вышло ПО Dragon NaturallySpeaking, которое по-прежнему доступно для скачивания. Скорость транскрибации человеческой речи увеличилась до 100 слов в минуту. Сама же программа стала стоить дешевле — $695.
В 2011 году случился самый настоящий прорыв в сфере голосовых помощников и ИИ в целом. Суперкомпьютер Watson от IBM победил в американской версии «Своей игры» («Jeopardy!») двух рекордсменов шоу. Компьютер не имел доступа к интернету, а отвечал на вопросы, используя знания, полученные путем индексации большого числа текстов. С тем, чтобы Watson мог понимать человеческую речь, IBM помогла уже известная нам Nuance Communications.
В том же году Apple представила первого персонального голосового помощника Siri. Алгоритм распознавания речи снова написала Nuance Communications. Интеграция голосового ассистента со смартфоном по-настоящему раскрыла потенциал робота. Если сначала Siri могла помочь с вводом текста, то дальше функционал программы расширился. Как Siri, так и появившиеся позже Google Ассистент или Alexa от Amazon с развитием технологий в сфере ИИ стали лучше понимать человеческую речь и быстрее обучаться на основе взаимодействия с пользователем.
Персональные ассистенты стали неотъемлемой частью смартфонов благодаря своей способности понимать контекст и персонализировать ответы. Сейчас они могут отвечать на вопросы, сообщать о погодных изменениях, ставить напоминания, музыку и управлять умным домом. Помимо этого, еще одним достижением разработчиков голосовых ассистентов стала интеграция в браузеры голосового поиска, который стал распространенным методом получения информации.
Какую же роль играют голосовые помощники в бизнесе? Сегодня голосовые роботы помогают не только решать задачи исходящего голосового обзвона и входящей клиентской линии, но и полностью оптимизировать бизнес-процесс.
Плюсы от внедрения голосовых помощников:
- Стоимость работы ИИ в несколько раз дешевле стоимости работы живого оператора.
- Роботы никогда не устают — могут успешно работать во время пиковой нагрузки и легко масштабироваться.
- Роботы поддерживает технологию биометрии голоса и элементы встроенной речевой аналитики, что помогает определять голос, пол, возраст пользователя и эффективно работать с возражениями.
- Робота легко обучить новым скриптам с помощью NLU (Natural Language Understanding — понимание естественного языка и обработка его искусственным интеллектом).
В отдельных случаях возможна интеграция голосовых ассистентов в существующий контакт-центр.
Как работают голосовые помощники
Голосовые помощники работают на основе технологии синтеза и распознавания речи. Внутри них находится движок, который включает нейросеть, обученную различным сценариям диалога. При этом алгоритмы машинного обучения помогают голосовым помощникам улучшаться, извлекая уроки из предыдущих взаимодействий и лучше понимая различные акценты и особенности речи.
Этапы работы голосового помощника:
- Пользователь дает голосовую команду роботу.
- Робот преобразует команду в текст.
- Робот анализирует получившийся текст для определения контекста сообщения и намерений пользователя.
- Робот отвечает на команду пользователя.
Интересно, что благодаря скачку в развитии генеративного ИИ голосовые помощники стали более персонализированными. Роботы получили возможность запоминать контекст беседы с пользователем.
Чтобы выполнить свою задачу в диалоге с пользователем — привести его к целевому действию — голосовой помощник использует заранее записанные скрипты. От правильно написанных сценариев зависит значительная часть успеха в работе голосового ассистента.
Критерии хороших скриптов:
- все скрипты индивидуальны и разрабатываются под каждого клиента отдельно;
- отличным подспорьем при написании сценария является получение аудиозаписей «живых» операторов;
- эти записи помогают заложить в голосовых помощников ответы на неочевидные вопросы, которые абоненты задают операторам;
- под каждый конкретный случай необходимо выбрать подходящих диктора, скорость речи и интонацию;
- скрипт необходимо дорабатывать, чтобы он продолжал работать и показывать целевую конверсию.
Самые известные примеры голосовых помощников
Когда заходит разговор о голосовых роботах, на ум сразу приходят персональные голосовые ассистенты. Первым, как мы уже сказали, был Siri от Apple. На год позднее в 2012 году Google представил своего голосового помощника Google Ассистента. Оба решения предоставляли схожий функционал: отправка сообщений, создание записей в календаре, управление приложениями и ответы на вопросы. Роботы активизировались голосовыми командами «Hey Siri» или «OK Google». Среди менее известных голосовых помощников можно также вспомнить Cortana от Microsoft и Bixby от Samsung.
В 2014 году Amazon запустил тренд на применение разговорного ИИ в масштабах умного дома, выпустив ассистента Alexa. Тренд подхватили Google и Apple, представившие Google Home и Apple HomePod.
Перспективы развития голосовых помощников
Мы живем в очень интересное время, и пускай голосовые ассистенты, системы умного дома, нейросети сейчас находятся, по факту, в зачаточном состоянии, можно быть абсолютно точно уверенными, что в будущем нас ждут куда более интересные вещи от мира высоких технологий, а венцом этой эпохи будут явно куда более лучшие продукты.
Будущее голосовых роботов выглядит многообещающе. Уже сейчас общемировой рынок генеративного ИИ оценивается в 11,3 миллиарда долларов. Эксперты прогнозируют, что к 2025 году он вырастет до 22 миллиардов.
В будущем возможности голосовых помощников будут расширяться. Благодаря достижениям в областях синтеза речи и машинного обучения роботы станут незаменимыми в здравоохранении и образовании.
Технологии развиваются очень быстрыми темпами и становятся все умнее, поэтому, опираясь на прогнозы аналитиков, можно с уверенностью сказать, что со временем проникновение голосовых помощников будет только повышаться. Люди быстро привыкают к вещам, которые предоставляют им принципиально новый уровень комфорта и удобства и открывают новые горизонты.
Кроме того, скоро голосовые помощники начнут освоение космоса. Сегодня космонавты читают инструкции с ноутбука, что отнимает много времени. Но уже существует робот, который сможет следить за их действиями и давать пошаговое руководство для выполнения поставленных задач. Также с его помощью космонавты всегда будут на связи с Землей — система будет передавать им последние новости в режиме реального времени.
Немаловажно, что распространение голосовых помощников способствует повышению их эффективности, ведь подобные системы работают на базе искусственного интеллекта и способны самообучаться, а это значит, что с чем большим количеством пользователей они будут «общаться», тем умнее будут становиться.
А какими голосовыми помощниками пользуетесь вы?
Понравилась статья? Поделитесь с друзьями!
Без активной гиперссылки на материал Sauap.org копирование запрещено!
Ссылки: https://hi-tech.mail.ru/review/111639-istoriya-golosovyh-pomoshnikov-kak-roboty-stali-chelovekopodobnymi/, https://trashbox.ru/topics/117807/golos-buduschego-kak-poyavilis-golosovye-assistenty, https://vc.ru/marketing/63988-evolyuciya-golosovyh-pomoshnikov-iz-smartfonov-v-kosmos