대화형AI 시장이 급성장하고 있는 가운데 인간과 기계가 상호작용을 효과적으로 하기 위해 필요한 기술에 대해 인피니언 테크놀로지스 기술진들이 이야기 한다.
“고 SNR MEMS 마이크로폰, 대화형 AI에 필수”
불완전한 환경에서도 선명한 오디오 포착
향상된 음성인식, 멀티모달 시스템에 효과
■ 대화형AI 급성장, 인간-기계 상호작용 위한 요소 중요
머신러닝의 한 분야로서 대화형 AI가 빠르게 진화하고 있다. 대화형 AI를 활용해서 인간-기계 상호작용을 직관적이고 자연스럽게 할 수 있다.
대화형 AI는 첨단 알고리즘과 기술을 사용해서 자연어 입력을 해석함으로써 기계가 사람처럼 반응할 수 있도록 한다.
툴과 시스템으로 대화형 AI 프레임워크를 도입함으로써 사용자가 자연어 명령을 사용해서 기계와 상호작용할 수 있다.
이러한 지능적인 시스템은 의도와 맥락을 이해하고, 사용자의 선호를 기억하고, 유의미한 대화를 나눌 수 있도록 설계된다.
이 글에서는 문자로 쓰여진 텍스트가 아니라 입으로 하는 말을 해석하고 반응하는 대화형 AI에 대해서 설명한다.
일상생활 속에서 음성 가능 애플리케이션이 갈수록 인기가 높아지고 있다. 대화형 AI 시장을 성장시키는 동력이 되는 기술적 진보와 음성 가능 비서가 폭넓게 도입되기 위해서 해결되어야 할 과제들을 알아본다.
음성 가능 애플리케이션의 사용자 경험을 향상시키기 위해서 중요한 한 가지 요소가 음성 사용자 인터페이스(VUI)이다. 정확한 음성 인식과 전반적인 오디오 품질 향상을 위해서 신호대 잡음비(SNR)가 높은 MEMS(micro-electro-mechanical system) 마이크로폰이 중요한 부품으로서 부상하고 있다.
이러한 고성능 실리콘 마이크로폰은 컴팩트한 크기와 높은 감도로 대화형 AI 시스템으로 더 정밀한 사운드 포착, 배경 소음 필터링, 더 선명한 오디오 입력을 가능하게 한다.
이 글에서는 음성 가능 애플리케이션으로 고 SNR MEMS 마이크로폰이 어떻게 음성 인식 정확도를 크게 향상시키고 더 매끄럽고 자연스러운 인간-기계 상호작용을 가능하게 하는지 설명한다.
■ 대화형 AI 실현 디바이스·애플리케이션 활용
대화형 AI가 오늘날 다양한 디바이스와 애플리케이션으로 필수적인 요소로 자리잡고 있다. 대화형 AI가 다양한 영역에서 우리가 기술과 상호작용하는 방식으로 큰 변화를 가져오고 있다.
오늘날 대화형 AI가 중요하게 활용되고 있는 친숙한 애플리케이션들로서 다음과 같은 것들을 들 수 있다.
▷스마트 스피커 : 스마트 스피커는 음성 가능 비서를 내장함으로써 사용자 요청에 응답할 수 있는 독립형 스피커이다. 시장에서 잘 알려진 것들로 구글 어시스턴트를 사용한 Google Home, 알렉사를 사용한 Amazon Echo, 시리를 사용한 Apple HomePod을 들 수 있다.
▷음성 가능 차량 시스템 : 음성 제어 비서를 내장한 자동차는 운전자가 운전대에서 손을 뗄 필요가 없고 계속해서 도로를 주시할 수 있다. 운전자가 버튼을 찾거나 메뉴를 넘길 필요 없이 음악 재생, 내비게이션 시스템, 기후 제어 같은 것들을 제어할 수 있다.
▷스마트 홈 시스템 : 스마트 홈 시스템은 자연어 명령을 사용해서 집안에서의 제어를 편리하게 할 수 있다. 대화형 AI를 활용할 수 있는 일상적인 디바이스들로서 조명, 온도조절기, 보안 시스템을 들 수 있다.
▷스마트 회의 시스템 : 스마트 회의 시스템은 대화형 AI를 활용해서 회의 자막을 달고 번역할 수 있는 생산성 툴이다. 이 시스템은 일정 조율, 조치 사항 확인, 회의록 작성 같은 업무에 음성 가능 비서를 활용할 수 있다.
■ 음성인식·자연어 처리·음성가능 디바이스, 대화형 AI 미래 형성
대화형 AI를 채택한 애플리케이션 및 디바이스 시장이 지난 몇 년 사이에 빠른 속도로 성장하고 있다. 특히 코로나 팬데믹 시기에 그랬다. 음성 비서 시장이 2023년에서 2030년 사이에 33.5%의 CAGR(연 평균 성장률)로 성장할 것으로 전망된다[1].
이러한 성장의 토대가 되는 것은 대화형 AI의 진보이다. 오늘날 다음과 같은 트렌드들이 이 기술을 성장시키는 동력이 되고 있다.
▷음성 인식 알고리즘 향상 : 대화형 AI가 갈수록 더 많이 사용됨으로써 음성 인식을 위한 데이터셋이 증가하게 되었다. 그럼으로써 음성 인식 알고리즘이 단어와 문장을 더 잘 인식하고 실제 사람들이 말하는 것을 더 잘 이해하게 되었다. 음성 인식 기술이 언어, 억양, 방언을 더 잘 인식하게 되었다[2].
▷자연어 처리의 진보 : 대화형 AI가 사용자가 무엇을 원하는지 해석하기 위해서 사용하는 메커니즘이 자연어 처리이다. 자연어 처리 알고리즘이 점점 더 정교해짐으로써 대화형 AI의 정확도와 개인화를 향상시키게 되었다. 이것은 대화형 AI를 좀더 직관적이고 신뢰할 수 있게 만든다[3].
▷음성 가능 디바이스의 사용 증가 : 각종 디바이스와 애플리케이션으로 음성 가능 기능의 사용이 늘어나면 대화형 AI에 대한 수요를 늘릴 것이고, 이것은 이 분야의 진보를 촉진할 것이다. 기술이 진보함에 따라서 가상 비서가 갈수록 더 복잡한 일을 갈수록 더 잘 처리할 수 있게 될 것이다. 대화형 AI가 업무 효율을 높인다는 인식이 확산됨에 따라서 음성 가능 애플리케이션을 사용하는 기업의 수는 갈수록 늘어날 것이다[4].
■ 음성 가능 비서 폭넓은 도입 위해 마이크로폰 성능 중요
음성 인식 및 자연어 처리 기술은 빠르게 진보하고 있으며, 진보된 대화형 AI 시스템에 대한 시장의 수요는 확실하다. 이러한 진보에도 불구하고 사용자들은 여전히 불만을 느끼고 있다.
이것이 음성 가능 비서의 폭넓은 도입에 걸림돌이 되고 있다. 이 중 상당 부분은 데이터 프라이버시와 관련된 것이다. 사용자들은 클라우드에 저장된 음성 데이터의 보안에 대해서 그리고 디바이스가 사적인 대화를 엿듣고 기록할 수 있는 가능성에 대해서 염려하고 있다.
사용자들의 또 다른 불만은 음성 비서와 상호작용하면서 느끼는 것이다. 오늘날 출시되는 거의 모든 운영체제와 디바이스로 음성 가능 비서를 탑재하고 있는데, 이러한 음성 비서들이 여전히 동음이의어를 혼동하고, 억양을 잘못 알아듣고, 지극히 정확한 발음을 필요로 한다.
배경 소음이 존재하는 장소에서 엉뚱하게 작동하고 언어 장애가 있는 사용자들의 말을 이해하지 못한다. 이러한 음성 인식 문제들은 디바이스로 채택하는 마이크로폰의 성능과 관련된다[5].
음성 사용자 인터페이스(VUI)는 음성 가능 비서 같은 대화형 AI 기술의 핵심적인 요소이다.
사용자는 VUI에게 말을 하는 것으로서 비서와 상호작용한다. 효과적인 음성 가능 비서는 다시 말해서 효과적인 VUI는 음성 명령을 정확하게 알아듣고 이해해야 한다. 사용자의 말을 이해하지 못하면 사용자를 불만스럽게 만들고 사용자 경험을 떨어트릴 것이다.
■ 고 SNR MEMS 마이크로폰 사용자 경험 향상
음성 가능 비서에게 정면으로 향해서 분명하게 말하거나, 시끄러운 장소를 피하거나, 간단한 명령만을 하는 식으로 말을 잘못 알아듣는 문제를 어느 정도 피할 수는 있을 것이다. 하지만 이렇게 하는 것은 대화형 AI의 잠재력을 제한하고 음성 가능 비서와 자연스럽게 대화하듯이 상호작용하기를 원하는 사용자의 기대에 반하는 것이다.
이 문제에 대한 해결책은 VUI로 오디오 포착을 향상시키는 것이다. 고 SNR MEMS 마이크로폰은 불완전한 환경에서도 선명한 오디오를 포착할 수 있도록 설계되었으며, 향상된 음성 인식, 원거리 음성 포착, 맥락 이해, (오디오와 비주얼 입력을 모두 해석할 수 있는) 멀티모달 시스템을 위해서 효과적이다. 이러한 것들은 음성 가능 비서의 도입을 가로막는 걸림돌들을 제거하기 위해서 중요하다.
■ 향상된 음성 인식
고 SNR MEMS 마이크로폰은 선명하고 정확한 오디오 신호를 포착한다. 이것은 음성 인식 알고리즘의 성능 향상을 위한 토대가 된다. MEMS 마이크로폰은 배경 소음 속에서도 음성을 포착할 수 있다. 그러므로 음성 가능 비서가 사용자 명령과 질문을 더 잘 이해할 수 있다. 마이크로폰이 더 우수한 품질의 입력 신호를 제공하면 비서가 해석하는 정확도 또한 향상된다[6].
MEMS 마이크로폰은 사용자가 음성 가능 비서에게 질문을 하는 실제 사운드 환경을 더 잘 처리하기 때문에 전반적인 사용자 경험과 음성 기반 상호작용의 효율을 높인다.
■ 잡음 감소와 원거리 음성 포착
높은 SNR은 MEMS 마이크로폰이 음성 명령을 선명하게 포착할 수 있도록 한다. SNR은 마이크로폰이 포착하고자 하는 희망 사운드와 마이크로폰 자체가 발생시키는 잡음의 비를 말한다.
그러므로 SNR이 높으면 희망 신호를 더 많이 포착할 수 있다. 높은 SNR에다 높은 감도를 더함으로써 원거리 음성 포착이 가능하다. 그러므로 사용자가 떨어진 거리에서나 시끄러운 장소에서도 음성 비서와 상호작용할 수 있다[7].
▲주요 VUI 활용 사례에 따른 음성 신호 수준과 디바이스와의 거리(출처: 인피니언)
▲이 차트는 속삭임/부드러운 음성 시나리오로 고 SNR 마이크로폰이 성능 점수가 더 우수하다는 것을 보여준다.(출처 : 인피니언)
능동 노이즈 필터링과 원거리 음성 포착은 스마트 홈, 회의실, 고객 지원 시스템, 공공 장소 같이 다양한 시끄러운 장소에서 음성 비서의 활용 가능성을 높인다. 인피니언이 실시한 조사에 따르면, 75dB SNR인 고 SNR MEMS 마이크로폰을 사용함으로써 상용 음성 가능 비서에 사용되는 것과 같은 표준 마이크로폰에 비해서 오디오를 40%나 더 잘 포착할 수 있는 것으로 확인된다[8].
■ 맥락 이해와 멀티모달 상호작용
고 SNR MEMS 마이크로폰을 채택한 VUI는 사용자 음성으로부터 어조나 강세 같은 맥락적 실마리를 포착할 수도 있다. 이러한 맥락 이해는 음성 비서로 하여금 사용자의 의도를 유추하고 좀더 정확하고 개인화된 반응을 할 수 있도록 한다.
이러한 향상은 멀티모달 상호작용을 가능하게 하는 것으로 이어진다. 예를 들어서 VUI와 고 SNR MEMS 마이크로폰에다 얼굴 인식 모델을 결합함으로써 사용자가 음성 명령과 얼굴 표정을 모두 사용해서 디바이스와 상호작용할 수 있다. 그러면 음성 가능 비서가 사용자의 의도를 이해하는 것을 향상시킬 수 있다[9].
■ 고 SNR MEMS 마이크로폰, 음성 인식 정확도 ↑·잡음 ↓·원거리 음성 포착 가능
고 SNR MEMS 마이크로폰은 VUI에 사용되는 대화형 AI 모델의 효용성을 높이기 위해서 중요한 요소이다. 이러한 MEMS 마이크로폰은 음성 인식 정확도를 높이고, 잡음을 낮추고 원거리 음성 포착을 가능하게 하고, 맥락 이해를 가능하게 하고, 멀티모달 상호작용을 가능하게 한다. 이러한 마이크로폰은 소음이 심한 환경에도 최상의 성능으로 선명한 오디오 포착이 가능하다. 고 SNR MEMS 마이크로폰은 가상 비서와 더 신뢰할 수 있는 상호작용을 가능하게 함으로써 사용자 경험을 향상시킨다.
고 SNR MEMS 마이크로폰 기술이 진보함에 따라서 음성 가능 비서의 성능과 신뢰성 또한 계속해서 향상될 것이다. 마이크로폰 감도, 신호 처리, 소음 제거 기법이 계속해서 발전함으로써 대화형 AI 시스템의 성능을 높일 것이다. 고 SNR MEMS 마이크로폰이 계속해서 향상됨으로써 인간-기계 상호작용을 크게 진보시키고 음성 기반 기술로 새로운 것들을 가능하게 할 것이다.
대화형 AI는 밝은 미래를 품고 있다. 음성 인식, 맥락 인식, 학습 모델이 혁신적으로 진보함으로써 음성 가능 비서가 갈수록 더 복잡한 명령과 대화를 처리할 수 있게 될 것이다. 첨단 알고리즘에다 뛰어난 마이크로폰을 결합함으로써 음성 가능 비서를 활용해서 좀더 편하고 직관적인 사용자 경험이 가능해질 것이다.
■ 인피니언의 고 SNR MEMS 마이크로폰
인피니언의 XENSIV™ MEMS 마이크로폰은 SNR이 높고 높은 음압 수준으로도 왜곡이 낮을 뿐만 아니라, 부품-대-부품 위상 및 감도 매칭, 낮은 주파수 롤오프로 평탄한 주파수 응답, 극히 낮은 그룹 지연을 특징으로 한다. 또한 선택 가능한 전력 모드들을 제공하고 패키지 크기가 작으므로 인피니언의 XENSIV™ MEMS 마이크로폰은 대화형 AI를 채택한 디바이스에 사용하도록 이상적인 솔루션을 제공한다.
www.infineon.com/mems
▲인피니언의 고성능 디지털 XENSIV™ MEMS 마이크로폰(IM70D122)은 랩탑 및 태블릿 애플리케이션으로 고품질 오디오 포착을 가능하게 한다.(출처: 인피니언)
※ 참고문헌
[1] Vantage Market Research. "Voice Assistants Market Size, Share & Trends Analysis Report by 2030". May 2023. Accessed 7 July 2023 from https://www.linkedin.com/pulse/voice-assistants-market-size-share-trends-analysis-report-hancock/
[2] Murf Resources. "Future of AI in Speech Recognition." April 2023. Accessed 18 June 2023 from https://murf.ai/resources/future-of-ai-in-speech-recognition/
[3] Schmelzer, Ronald. "Natural language processing drives conversational AI trends." TechTarget. June 2019. Accessed 18 June 2023 from https://www.techtarget.com/searchenterpriseai/feature/Natural-language-processing-drives-conversational-AI-trends
[4] GlobeNewswire. "Global Conversational AI Market Report 2023: Increasing Demand for AI-Powered Customer Support Services Boosts Growth." April 2023. Accessed 18 June 2023 from https://www.globenewswire.com/en/news-release/2023/04/17/2648259/28124/en/Global-Conversational-AI-Market-Report-2023-Increasing-Demand-for-AI-Powered-Customer-Support-Services-Boosts-Growth.html…
[5] Zetlin, Minda. "Here's Why Alexa (and Siri and Google) Still Don't Understand You as Well as They Should". Inc. December 2022. Accessed 19 June 2023 from https://www.inc.com/minda-zetlin/heres-why-alexa-and-siri-google-still-dont-understand-you-as-well-as-they-should.html
[6] Infineon. "Why you need high performance, ultra-high SNR MEMS microphones". Accessed 19 June 2023 from https://www.infineon.com/dgdl/Infineon-AN547_Why+you+need+high+performance+ultra-high+SNR+microphones+-AN-v01_01-EN.pdf?fileId=5546d4626102d35a01612d1e2afd6ad3
[7] Infineon. "Why you need high performance, ultra-high SNR MEMS microphones". Accessed 19 June 2023 from https://www.infineon.com/dgdl/Infineon-AN547_Why+you+need+high+performance+ultra-high+SNR+microphones+-AN-v01_01-EN.pdf?fileId=5546d4626102d35a01612d1e2afd6ad3
[8] Infineon. "Value of high-SNR microphones in Voice User Interface". Accessed 19 June 2023 from https://www.infineon.com/dgdl/Infineon-Value+of+high+SNR+microphones+in+Voice+user+Interface-ApplicationNotes-v01_01-EN.pdf?fileId=5546d46269e1c019016a78d976d852fd
[9] Ahmad, Majeed. "How MEMS Microphones Aid Sound Detection and Keyword Recognition in Voice-Activated Designs". DigiKey. Accessed 19 June 2023 from https://www.digikey.com/en/articles/how-mems-microphones-aid-sound-detection