Особенности UX-дизайна голосовых интерфейсов для детей

7 min readFeb 1, 2019

…designing for children is about designing for when things go wrong. If you’ve got kids, if you know what children are like, you know expect things to go wrong.

Paul Jackson, Senior Designer at the BBC

В этой статье рассматриваются принципы работы голосовых интерфейсов, их достоинства и недостатки, особенности применения голосовых интерфейсов в устройствах, предназначенных для использования детьми дошкольного и младшего школьного возраста.

Введение

Voice User Interface — альтернатива клавиатуре или почти искусственный интеллект? Достаточно ли научить устройство распознавать команды, сказанные голосом, или помощник должен стремиться предугадывать мысли своего хозяина? Правильно ли наделять ГИ личностью и именем, представляя его ребенку как друга?

Чтобы ответить на эти и другие вопросы, придется подробно поговорить о том, что представляет из себя VUI и почему он все прочнее занимает позицию помощника для взрослых и друга/воспитателя для детей.

Применение

Ситуаций, когда люди предпочитают применять VUI, может быть много. Но все они объединены одним признаком: “потому что в этой ситуации смотреть в экран я не могу”. У взрослых это, например, время, когда они ведут автомобиль или просто ленятся встать с дивана, чтобы взять в руки гаджет. У детей же список таких ситуаций примерно следующий:

недостаточная освещенность: вечернее время, приготовление ко сну
работа с материалами, требующими обе свободные руки: рисование красками, лепка, etc.
перемещение с места на место, нахождение в движении: спорт, подвижные игры, поездка
в дополнение к основному занятию: ребенок делает зарядку, фоном хочет включить музыку
условия использования могут быть опасны для гаджета в руках: в ванне (зальется водой), на кухне (что-то разольется или капнет), тренировка (можно выронить и разбить)

Во всех этих случаях смотреть в экран будет неудобно, а вот попросить выполнить команду — вполне. Руки свободны, не нужно находиться рядом с гаджетом, не нужно даже уметь читать! А есть ли недостатки? К сожалению, да.

Для человека, физически способного воспринимать зрительную информацию, визуальный канал всегда будет оставаться приоритетным, а слуховой — дополнительным. Поэтому рекомендуется кроме звуковых сигналов (например, о готовности слушать) использовать дублирующие визуальные.
Язык команд не естественнен для человека, а ГИ, в свою очередь, не всегда понимает развернутые фразы и привычные нам формулировки запросов. Возникает проблема т.н. “разговорного UX” и обучения помощника понимать фразы в контексте.
Общаясь друг с другом, мы можем фильтровать разговорные потоки: начать одну тему, поменять ее, вспомнить что-то в дополнение к первой и озвучить — и собеседник нас поймет. VUI такой способностью пока не обладает. Выполняя один цикл команд, он “забывает” то, что делал до этого.
VUI всегда последовательный. Мы не видим экран, не видим доступные варианты взаимодействия, и не можем вернуться назад или пропустить шаг. А если попросим вернуться назад — куда попадем? К началу команды или к началу всего диалога?

Начало.

Как устройство понимает, что надо начать слушать?

Взаимодействие с голосовым интерфейсом начинается со срабатывания триггера активации. Для этого можно использовать несколько способов:

позвать помощника голосом
нажать кнопку
активировать датчик (движения, света, etc.)

Обращение по имени соответствует привычному формату общения ребенка со сверстниками, и с точки зрения когнитивности из всех трех вариантов подходит больше других. Кроме того, это позволит сразу же распознавать личность обратившегося по voiceprint’у, и строить диалог уже с использованием этой информации, в контексте прошлых диалогов. Это может иметь значение, если устройство используется несколькими детьми совместно. В свою очередь, нажатие кнопки требует дополнительного действия и нахождения непосредственно рядом с устройством, что не всегда удобно.

Слушаю вас!

Как ребенок понимает, что можно говорить?

Для этого могут использоваться визуальные сигналы (включение подсветки, изменение ее цвета, мигание), звуковые сигналы, вибрация, голосовой отклик. Использовать можно что-то одно, или несколько сигналов сразу. Если это будет голосовая фраза, она не должна быть длинной: скорее всего, ребенку надоест ждать, пока гаджет договорит: «Здравствуй, мой маленький друг! Расскажи мне, что бы ты хотел, чтобы я сделал?», и он начнет свою реплику раньше, чем закончится приглашение к диалогу. Что произойдет в случает такого конфликта входящего и исходящего голосового потока? Если такое случилось, фраза помощника должна быть немедленно прервана, а устройство должно перейти в режим прослушивания.

Какой (или какие) способ для обозначения готовности слушать бы ни был выбран, он не должен:

оставаться незамеченным
меняться
быть похожим на другие сигналы

Обратная связь

Как ребенок понимает, что был услышан?

Для обратной связи существующие голосовые ассистенты используют дублирование озвученного текста (сразу, в реальном времени, или потом — по окончании фразы), движения волнистых линий, градиентов и геометрических фигур. Однако, все это требует наличия экрана, и если конструкция устройства его не предусматривает, на помощь приходят другие визуальные эффекты — ритмическое (в соответствии с голосом) изменение цвета подсветки, мигание светодиодов, etc.

Voice AI interface by Gleb Kuznetsov for Milkinside

Другие состояния

Итак, мы рассмотрели несколько состояний голосового интерфейса: загрузка (1), прослушивание (2), обратная связь (3). Реплика человека окончена, и теперь VUI должен решить, можно ли начинать обрабатывать запрос или подождать — вдруг пользователь скажет что-то еще? Здесь стоит ввести понятие разумной паузы. Пауза эта зависит от контекста: если ГИ задал вопрос, на который ожидает односложный ответ, то уже после первого слога “Да”/“Нет” можно предполагать, что реплика закончена. Зная контекст, имея паттерны прошлых диалогов, помощник может использовать эти данные для предположения, что скажет пользователь следующей фразой, и на этом основании определять, когда перейти в состояние конец фразы (4).

Следующий этап — ответ (5), реплика помощника. Хорошо, если в ней содержится подтверждение запроса ребенка, свидетельствующее о полном понимании:

Между концом фразы и ответом стоит предусмотреть промежуточные состояния: понял — если на обработку запроса требуется время, и нет ответа — если сервер не отвечает более 10 секунд.

Неожиданные сценарии

Что, если VUI не может обработать запрос?

При моделировании коммуникации VUI с ребенком стоит учитывать склонность маленького пользователя к исследованию: исключительно из любопытства (а что ты еще умееешь? а если вот так?) он может (и будет) делать запросы, которых от него никто не ждет. И то, как будет реагировать цифровой собеседник, как он будет “выкручиваться”, имеет важное значение для формирования позитивного опыта. Помощник, который на все, не укладывающееся в скрипт, отвечает “не знаю” или вообще молчит, заставляя гадать, что же делать дальше — плохой помощник. Как же ему повести себя правильно?

обозначить факт недопонимания и взять за него ответственность

2. попросить научить, выступив в роли старшего товарища

3. продолжить диалог исходя из полученного дополнительного контекста, при невозможности — переключить внимание

Антропоморфизм

Стоит ли наделять ГИ “личностью”? Давать ему имя? Приучать ребенка относиться к нему, как к разумному существу? Вопрос спорный, но психологи утверждают, что в процессе развития ребенка имеет место стремление наделять животных и предметы человеческими чертами, и это считается нормой для дошкольного, а иногда и младшего школьного возраста. Действительно, раз уж дети склонны заводить “друзей” среди игрушек, животных, растений — будет ли правильным убеждать их, что говорящий гаджет — просто технология, хоть и “умная”, а вовсе не новый друг? С другой стороны, нужно помнить об эффекте “зловещей долины” и не перебарщивать с “человеческим” поведением VUI.

Принципы взаимодействия VUI с ребенком

👉 Использовать voiceprinting

Функция “опознания” ребенка по голосу, для ведения диалога в контексте и с использованием паттернов общения именно этого ребенка, а не его братьев, сестер или друзей. Дополнительно способствует повышению доверия.

👉 Ограничить выбор

Выбор нужен, но задача ГИ — выбрать, из чего будет выбирать ребенок. Если изначально вариантов 10, не нужно давать их все — пусть будут предложены два, а в случае отказа — два других из этого же списка.

👉 Не оставлять без подсказки

Если ребенок не поймет, что делать с гаджетом, он не будет со взрослым терпением разбираться, отчего техника не желает направлять. Он просто потеряет интерес, отложит его в сторону и убедить его снова обратить внимание на скучную штуковину будет непросто. Когда могут возникнуть такие ситуации? При первом использовании, при молчании в момент записи голоса, при сбое считывания голоса, отсутствии ответа от сервера. Во всех этих случаях ГИ должен давать подсказки, ненавязчиво напоминать о себе/вовремя уходить в ждущий режим, объяснять, почему ответа нет.

👉 Положительное подкрепление

Хвалить за участие, а не победу (например, в викторине). При этом лучше использовать не общие выражения, а обращаться к личным качествам ребенка(“ты сообразительный”, “ты быстро учишься” вместо “ты замечательный”)

👉 Запасной вариант

Он должен быть всегда (см. раздел “Неожиданные сценарии”)

👉 Повторение — не всегда хорошо

В ситуации, когда диалог “застревает” на одном и том же месте, два раза можно попытаться вернуть ребенка в сценарий, на третий — предложить другой сценарий (hint: все дети любят сюрпризы😉).