Publicado: marzo 31, 2025, 12:30 pm
Ann, una persona con una parálisis que la incapacitaba a hablar, ha podido volver a hacerlo gracias a una neuroprótesis que permite transmitir voz desde el cerebro en tiempo real diseñada por un equipo de investigadores de UC Berkeley y UC San Francisco ha descubierto una forma de restaurar el habla para personas con parálisis severa. La investigación, publicada en ‘ Nature Neuroscience ‘, resuelve el problema persistente de la latencia en las neuroprótesis del habla, el lapso de tiempo entre el momento en que un sujeto intenta hablar y el momento en que se produce el sonido. Utilizando avances recientes en modelado basado en inteligencia artificial, los investigadores desarrollaron un método de transmisión que sintetiza señales cerebrales en voz audible casi en tiempo real. Esta tecnología representa un paso crucial para facilitar la comunicación a las personas que han perdido la capacidad del habla. «Nuestro enfoque de streaming incorpora la misma capacidad de decodificación rápida de voz de dispositivos como Alexa y Siri a las neuroprótesis», afirma Gopala Anumanchipalli . «Usando un algoritmo similar, descubrimos que podíamos decodificar datos neuronales y, por primera vez, permitir la transmisión de voz casi sincrónica. El resultado es una síntesis de voz más natural y fluida». «Esta nueva tecnología tiene un enorme potencial para mejorar la calidad de vida de las personas que viven con parálisis grave que afecta el habla», afirma el neurocirujano Edward Chang, coinvestigador principal del estudio. Los investigadores también demostraron que su enfoque puede funcionar bien con una variedad de otras interfaces de detección cerebral, incluidas las matrices de microelectrodos (MEA) en las que los electrodos penetran la superficie del cerebro, o grabaciones no invasivas (sEMG) que utilizan sensores en la cara para medir la actividad muscular. «Al demostrar una síntesis precisa de cerebro a voz en otros conjuntos de datos de habla silenciosa, demostramos que esta técnica no se limita a un tipo específico de dispositivo», asegura Kaylo Littlejohn. «El mismo algoritmo puede utilizarse en diferentes modalidades, siempre que exista una buena señal». Según el coautor principal del estudio, Cheol Jun Cho, la neuroprótesis funciona tomando muestras de datos neuronales de la corteza motora, la parte del cerebro que controla la producción del habla, y luego utiliza IA para decodificar la función cerebral en habla. «Básicamente, interceptamos señales donde el pensamiento se traduce en articulación y en medio de ese control motor -afirma-. Así que lo que decodificamos es después de que un pensamiento ha surgido, después de que hemos decidido qué decir, después de que hemos decidido qué palabras usar y cómo mover los músculos del tracto vocal». Para recolectar los datos necesarios para entrenar su algoritmo, los investigadores primero le pidieron a Ann que mirara una indicación en la pantalla (como la frase: «Hola, ¿cómo estás?») y luego intentara decir esa oración en silencio. «Esto nos proporcionó un mapeo entre las ventanas fragmentadas de actividad neuronal que ella genera y la oración objetivo que está tratando de decir, sin necesidad de vocalizar en ningún momento», comenta Littlejohn. Dado que Ann no tiene vocalización residual, los investigadores no contaban con un audio objetivo, o salida, al que pudieran asignar los datos neuronales, la entrada. Resolvieron este desafío utilizando IA para completar los detalles faltantes. «Usamos un modelo de texto a voz preentrenado para generar audio y simular un objetivo -indica Cho-. Y también usamos la voz de Ann antes de la lesión, así que al decodificar la salida, suena más parecida a la suya». En su estudio previo sobre BCI , los investigadores tuvieron una larga latencia para la decodificación, de aproximadamente 8 segundos de retraso para una sola oración. Con el nuevo enfoque de transmisión, se puede generar una salida audible casi en tiempo real, mientras el sujeto intenta hablar. Para medir la latencia, los investigadores emplearon métodos de detección de voz, que les permitieron identificar las señales cerebrales que indican el inicio de un intento de habla. «Podemos ver que, en relación con esa señal de intención, en un segundo, estamos obteniendo el primer sonido -asegura Anumanchipalli-. Y el dispositivo puede decodificar el habla continuamente , para que Ann pueda seguir hablando sin interrupciones». Esta mayor velocidad no se redujo en precisión. La interfaz más rápida ofreció el mismo alto nivel de precisión de decodificación que su enfoque anterior, sin transmisión. Los investigadores también probaron la capacidad del modelo en tiempo real para sintetizar palabras que no formaban parte del vocabulario del conjunto de datos de entrenamiento; en este caso, 26 palabras raras del alfabeto fonético de la OTAN, como «Alpha», «Bravo», «Charlie», etc. «Queríamos ver si podíamos generalizar a las palabras invisibles y decodificar realmente los patrones de habla de Ann. Descubrimos que nuestro modelo lo hace bien, lo que demuestra que efectivamente está aprendiendo los componentes básicos del sonido o la voz». Ann, quien también participó en el estudio de 2023, compartió con los investigadores cómo su experiencia con el nuevo enfoque de síntesis de transmisión se compara con el método de decodificación de texto a voz del estudio anterior. «Ann transmitió que la síntesis en streaming era una modalidad con mayor control voluntario -añade Anumanchipalli-. Escuchar su propia voz casi en tiempo real aumentó su sensación de personificación ». Este último trabajo acerca a los investigadores un paso más a lograr un habla naturalista con dispositivos BCI, al tiempo que sienta las bases para futuros avances. Los investigadores también siguen centrados en aumentar la expresividad de la voz de salida para reflejar los cambios de tono, timbre o volumen que ocurren durante el habla, como cuando alguien está emocionado.