Los asistentes de voz no funcionan para los niños: el problema con el reconocimiento de voz en el aula


Antes de la pandemia, más del 40% de los nuevos usuarios de Internet eran niños. Las estimaciones ahora sugieren que el tiempo de pantalla de los niños ha aumentado en un 60% o más y los niños menores de 12 años pasan más de cinco horas al día frente a las pantallas (con todos los beneficios y peligros asociados).

Aunque es fácil maravillarse con la destreza tecnológica de los nativos digitales, los educadores (y los padres) son dolorosamente conscientes de que los jóvenes «aprendices remotos» a menudo tienen dificultades para navegar por los teclados, menús e interfaces necesarios para cumplir la promesa de la tecnología educativa.

En ese contexto, los asistentes digitales habilitados por voz tienen la esperanza de una interacción más fluida con la tecnología. Pero mientras que a los niños les gusta preguntarle a Alexa o Siri Para hacer beatbox, contar chistes o hacer sonidos de animales, los padres y maestros saben que estos sistemas tienen problemas para comprender a sus usuarios más jóvenes una vez que se desvían de las solicitudes predecibles.

El desafío surge del hecho de que el software de reconocimiento de voz que impulsa a los asistentes de voz populares como Alexa, Siri y Google nunca fue diseñado para su uso con niños, cuyas voces, lenguaje y comportamiento son mucho más complejos que los de los adultos.

No es solo que las voces de los niños son más chirriantes, sus tractos vocales son más delgados y cortos, sus cuerdas vocales más pequeñas y su laringe aún no se ha desarrollado por completo. Esto da como resultado patrones de habla muy diferentes a los de un niño mayor o un adulto.

A partir del gráfico a continuación, es fácil ver que el simple hecho de cambiar el tono de las voces adultas utilizadas para entrenar el reconocimiento del habla no reproduce la complejidad de la información necesaria para comprender el habla de un niño. Las estructuras y los patrones del lenguaje de los niños varían enormemente. Dan saltos en sintaxis, pronunciación y gramática que deben ser tenidos en cuenta por el componente de procesamiento del lenguaje natural de los sistemas de reconocimiento de voz. Esa complejidad se ve agravada por la variabilidad entre los hablantes entre los niños en una amplia gama de diferentes etapas de desarrollo que no necesitan tenerse en cuenta con el habla de los adultos.

cambios de tono vocal con la edad

Cambiar el tono de las voces de los adultos que se utilizan para entrenar el reconocimiento del habla no reproduce la complejidad de la información necesaria para comprender el habla de un niño. Créditos de imagen: SoapBox Labs

El comportamiento del habla de un niño no solo es más variable que el de los adultos, es tremendamente errático. Los niños enuncian palabras en exceso, alargan ciertas sílabas, puntúan cada palabra mientras piensan en voz alta o se saltan algunas palabras por completo. Sus patrones de habla no están sujetos a cadencias comunes familiares a los sistemas creados para usuarios adultos. Como adultos, hemos aprendido cómo interactuar mejor con estos dispositivos, cómo obtener la mejor respuesta. Nos enderezamos, formulamos la solicitud en nuestras cabezas, la modificamos basándonos en el comportamiento aprendido y expresamos nuestras solicitudes en voz alta, inhalamos profundamente … «Alexa …» Los niños simplemente sueltan sus solicitudes no pensadas como si Siri o Alexa fueran humano, y la mayoría de las veces obtiene una respuesta errónea o enlatada.

En un entorno educativo, estos desafíos se ven agravados por el hecho de que el reconocimiento de voz debe lidiar no solo con el ruido ambiental y la imprevisibilidad del aula, sino también con los cambios en el habla de un niño a lo largo del año y la multiplicidad de acentos y dialectos en una escuela primaria típica. colegio. Las diferencias físicas, de lenguaje y de comportamiento entre niños y adultos también aumentan drásticamente cuanto más joven es el niño. Eso significa que los estudiantes jóvenes, que se beneficiarán más del reconocimiento de voz, son los más difíciles de construir para los desarrolladores.

Para explicar y comprender las variadas peculiaridades del lenguaje de los niños se requieren sistemas de reconocimiento de voz creados para aprender intencionalmente de la forma en que hablan los niños. El habla de los niños no puede tratarse simplemente como un acento o dialecto más para adaptarse al reconocimiento de voz; es fundamental y prácticamente diferente, y cambia a medida que los niños crecen y se desarrollan tanto física como lingüísticamente.

A diferencia de la mayoría de los contextos de consumo, la precisión tiene profundas implicaciones para los niños. Un sistema que le dice a un niño que está equivocado cuando tiene razón (falso negativo) daña su confianza; que les dice que tienen razón cuando están equivocados (falso positivo) corre el riesgo de sufrir daños socioemocionales (y psicométricos). En un entorno de entretenimiento, en aplicaciones, juegos, robótica y juguetes inteligentes, estos falsos negativos o positivos conducen a experiencias frustrantes. En las escuelas, los errores, los malentendidos o las respuestas enlatadas pueden tener implicaciones educativas y de equidad mucho más profundas.

Bien documentada parcialidad en el reconocimiento de voz puede, por ejemplo, tener efectos perniciosos en los niños. No es aceptable que un producto funcione con menor precisión (generando falsos positivos y negativos) para niños de un determinado origen demográfico o socioeconómico. Un creciente cuerpo de investigación sugiere que la voz puede ser una interfaz extremadamente valiosa para los niños, pero no podemos permitir o ignorar la posibilidad de que aumente los prejuicios y las desigualdades que ya son endémicas en nuestras escuelas.

El reconocimiento de voz tiene el potencial de ser una herramienta poderosa para los niños en el hogar y en el aula. Puede llenar vacíos críticos en el apoyo a los niños a través de las etapas de alfabetización y aprendizaje de idiomas, ayudando a los niños a comprender mejor, y ser comprendidos por, el mundo que los rodea. Puede allanar el camino para una nueva era de medidas de observación «invisibles» que funcionan de manera confiable, incluso en un entorno remoto. Pero la mayoría de las herramientas de reconocimiento de voz actuales no son adecuadas para este objetivo. Las tecnologías que se encuentran en Siri, Alexa y otros asistentes de voz tienen un trabajo que hacer: comprender a los adultos que hablan de manera clara y predecible y, en su mayor parte, lo hacen bien. Para que el reconocimiento de voz funcione para los niños, debe ser modelado y responder a sus voces, lenguaje y comportamientos únicos.



Fuente: TechCrunch

Compartir:

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Esta web utiliza cookies, puedes ver aquí la Política de Cookies