[바이오토픽] AI를 이용한 「생각 → 언어 번역」, 어디쯤 왔나?

마비(paralysis) 때문에 말을 할 수 없는 환자들의 뇌(腦) 속에는 '말하고자 하는 내용'에 대한 신호(signal)가 들어있는 경우가 많지만, 그런 신호를 직접 해독하는 방법은 지금껏 개발되지 않았다. 그러나 최근 세 연구팀이 "'뇌 속에 이식된 전극(electrode)에서 나온 데이터를 「컴퓨터 생성 언어(computer-generated speech)」로 전환하는 데 큰 진전을 이루었다"고 보고했다. 즉, 신경망(neural network)이라는 컴퓨터모델을 이용하여 단어와 문자들을 재구성(reconstruction)했는데, 그중에는 인간 청취자들에게 이해될 수 있는 경우도 있었다는 것이다.

최근 몇 달 동안 출판 전 서버(preprint server)인 《bioRxiv》에 업로드된 세 편의 논문들 중에서, '사람들이 상상하는 언어'를 재창조했다고 밝힌 논문은 한 편도 없었다. 연구자들은 그 대신, "사람들이 '크게 낭독하거나' '입만 뻥긋하거나' '녹음된 소리를 들을 때' 다양한 뇌 영역들을 모니터링했다"고 보고했다. "그러나 재구성된 언어가 이해될 수 있음을 증명했다는 것만도 대단한 성과라고 할 수 있다"라고 스위스 제네바 대학교의 스테파니 마틴(신경공학)은 논평했다.

뇌졸중이나 질병으로 인해 언어능력을 상실한 사람들은, 눈(目)이나 그 밖의 작은 몸짓을 이용하여 커서(cursor)를 제어하거나 컴퓨터 화면 상의 글자들을 선택할 수 있다. (우주학자 스티븐 호킹은 빰을 긴장시킴으로써 안경에 장착된 스위치를 작동시킨 바 있다.) 그러나, 「뇌-컴퓨터 인터페이스(brain-computer interface)」가 그들의 언어를 직접 재창조할 수 있다면, 이점(利點)이 훨씬 더 많을 것이다. 예컨대 말이 톤(tone)과 억양을 조절하거나, 빠르게 진행되는 대화에 끼어들 수도 있을 것이다.

넘어야 할 장벽은 아직 높다. "우리는 다양한 시점에서 on/off 되는 뉴런의 패턴을 분석함으로써 언어음(speech sound)을 추론하려고 노력하고 있다. 그러나 신호와 언어를 직접 연관시키는 것은 만만치 않다"라고 컬럼비아 대학교의 니마 메스가라니(컴퓨터과학)는 말했다. "여러 가지 신호들이 언어음으로 번역되는 과정은 사람마다 다르다. 따라서 컴퓨터 모델은 개인별로 훈련을 받아야 한다. 그리고 컴퓨터 모델이 좋은 성적을 거두려면 극도로 정확한 데이터가 필요한데, 그런 데이터를 얻으려면 뇌 속에 전극을 심어 기록하는 수밖에 없다.

그러나 그런 침습적 기록(invasive recording)은 아무 때나 할 수 있는 게 아니라, 극히 드문 경우에만 가능하다. 일례로, 뇌종양을 제거할 때가 그런 경우다. 그럴 때 노출된 뇌에서 읽어낸 전기신호(electrical readout)는, 외과의사들이 핵심적인 언어 및 운동영역(speech and motor area)을 찾거나 회피하는 데 도움이 된다. 두 번째 예는, 뇌전증 환자의 뇌에 며칠 동안 전극을 이식하여, 수술을 하기 전에 발작의 기원을 찾아내는 경우를 들 수 있다. "우리는 길어야 20분 내지 30분 동안 데이터를 수집할 수 있다. 우리의 능력은 매우 제한적이다"라고 마틴은 말했다.

연구팀들은 이렇게 확보한 귀중한 정보들을 잘 활용하기 위해 신경망에 공급했고, 신경망은 그러한 정보들을 다층적 계산노드(computational node)에 통과시킴으로써 복잡한 패턴을 처리했다. 신경망은 노드 간의 연결(connection)을 조절함으로써 학습을 수행했는데, 신경망이 연구팀에게서 제공받은 정보는 동시에 입수된 '음성녹음(말히기, 듣기)'과 '뇌활성 데이터'였다.

1. 메스가라니가 이끄는 연구팀은 다섯 명의 뇌전증 환자에게서 입수한 데이터에 의존했다(참고 2). 그들의 신경망은 청각피질(auditory cortex: 말할 때와 들을 때 모두 활성화되는 영역)에서 나온 전기정보를 분석했는데, 그 정보는 환자들이 '녹음된 소설책'과 '0부터 9까지 말하는 사람들의 소리'를 들을 때 수집된 것이었다. 컴퓨터는 신경데이터만 갖고서 '발음된 숫자'를 재구성했는데, '컴퓨터가 말하는 숫자'를 사람들에게 들려주니 75%의 정확성으로 알아듣는 것으로 나타났다.

A computer reconstruction based on brain activity recorded while a person listened to spoken digits.
https://www.sciencemag.org/sites/default/files/audio/Mesgarani-1.mp3

2. 독일 브레멘 대학교의 미구엘 앙그리크(신경과학)와 네덜란드 마스트리흐트 대학교의 크리스티안 헤르프(신경과학)가 이끄는 연구팀은 뇌종양 수술을 받은 환자 여섯 명에게서 입수한 데이터에 의존했다(참고 3). 연구팀은 환자들이 한 음절의 단어를 크게 읽을 때 마이크를 이용하여 음성을 녹음했다. 그와 동시에, 전극을 이용하여 환자들의 음성계획영역(speech planning area)과 운동영역(motor area: 성도(vocal tract)에 '단어를 발음하라'는 명령을 내리는 영역)에서 나오는 전기신호를 기록했다. 신경망은 전극으로 기록한 전기신호를 오디오 기록에 매핑한 다음, 지금껏 알려지지 않은 뇌영역에서 단어를 재구성했다. 마지막으로, 컴퓨터화된 시스템을 이용하여 평가해보니, 컴퓨터 생성 단어(computer-generated word)의 약 40%가 알아들을 수 있는 수준인 것으로 나타났다.

Original audio from a study participant, followed by a computer recreation of each word, based on activity in speech planning and motor areas of the brain.
https://www.sciencemag.org/sites/default/files/audio/Herff-1.mp3

3. UCSF의 에드워드 창(신경외과)이 이끄는 연구진은, 세 명의 뇌전증 환자들이 글을 크게 읽는 동안 언어영역과 운동영역에서 포착된 뇌활성으로부터 문장 전체를 재구성했다(참고 4). 뒤이어 수행된 온라인 테스트에서, 166명의 사람들에게 그 문장들 중 하나를 들려준 다음 10개의 선택지 중에서 하나를 고르게 했다. 그 결과 일부 문장들은 80% 이상의 적중률을 보였다. 연구팀은 모델을 더욱 확장하여, 사람들이 입만 뻥긋한 동안 기록된 데이터를 이용하여 문장을 재창조했다. "이것은 매우 중요한 결과로, 우리 모두가 꿈꾸는 언어보철(speech prosthesis)에 한 걸음 더 다가섰다고 할 수 있다"고 헤르프는 말했다.

"그러나 우리가 진정으로 기다리는 결과는 '말하지 못하는 환자들에게 그런 방법을 얼마나 적용할 수 있는가'이다"라고 샌디에이고 대학교에서 언어생성을 연구하는 스타파니 리에스(신경과학)는 논평했다. "사람이 입만 뻥긋하거나 타인의 목소리를 들을 때 나오는 뇌신호는, 자기가 직접 말하거나 들을 때 나오는 뇌신호와 다르다. 음향과 뇌활동을 제대로 연관 짓지 않으면, 컴퓨터로 하여금 내적 언어(inner speech)가 '시작되는 점'과 '끝나는 점'을 분별하도록 훈련하기가 어렵다."

"상상된 언어(imagined speech)를 해독하려면 엄청난 도약이 필요하다"라고 뉴욕 주 보건복지부 산하 국립 적응적 신경기술센터(National Center for Adaptive Neurotechnologies)의 거윈 샬크(신경공학)는 말했다.

"한 가지 방법은, 「뇌-컴퓨터 인터페이스」의 사용자에게 피드백을 제공하는 것이다. 만약 그들이 컴퓨터의 언어해석을 실시간으로 들을 수 있다면, '원하는 결과'를 얻기 위해 '자신의 생각'을 조절할 수 있을 것이다"라고 헤르프는 말했다. "사용자와 신경망이 모두 충분한 훈련을 받을 때, 뇌와 컴퓨터는 적절한 타협점을 찾을 수 있을 것이다."

※ 참고문헌

1. https://www.statnews.com/2018/11/15/brain-computer-interface-translate-thoughts-speech/
2. https://www.biorxiv.org/content/early/2018/10/10/350124
3. https://www.biorxiv.org/content/early/2018/11/27/478644
4. https://www.biorxiv.org/content/early/2018/11/29/481267

※ 출처: Science https://www.sciencemag.org/news/2019/01/artificial-intelligence-turns-brain-activity-speech

글쓴이_양병찬

서울대학교 경영학과와 동 대학원을 졸업한 후 기업에서 근무하다 진로를 바꿔 중앙대 학교에서 약학을 공부했다. 약사로 일하며 틈틈이 의약학과 생명과학 분야의 글을 번역했다. 포항공과대학교 생물학연구정보센터BRIC의 바이오통신원으로, <네이처>와 <사이언스>등에 실리는 의학 및 생명과학 기사를 실시간으로 번역, 소개하고 있다. 그의 페이스북에 가면 매일 아침 최신 과학기사를 접할 수 있다.

https://www.facebook.com/OccucySesamelStreet

상단영역

본문영역

[바이오토픽] AI를 이용한 「생각 → 언어 번역」, 어디쯤 왔나?

관련기사

기사 댓글 0

비회원 로그인