거실, 주방, 침실은 물론 차량 내에서도 사용자의 목소리를 알아듣고 반응하는 스마트 스피커는 이제 더이상 애니메이션 속 이야기가 아니다. 글로벌 시장조사 업체 카날리스는 지난 11월 전 세계 스마트 스피커 설치 대수가 2019년 말까지 2억 대를 넘어설 것으로 예상하고 있지만 사용자들은 여전히 엉뚱한 반응을 보이는 AI 스피커에 불만을 갖고 있다. 작은 소리에도 멀리 있어도 항상 또렷하게 반응해주는 스피커인 ADC 제품을 개발한 베테랑 엔지니어를 만나 핵심 기술에 대해 들었다.
음성 인식률은 높이고 말뭉치 구축률은 낮추는 멀티채널디바이스
ADC, 캡쳐 및 증폭 기술로 1:1 대화는 물론 원거리 청취도 현실화
“알렉사, 인형의 집을 사줘”
미국의 한 여섯 살짜리 꼬마가 아마존 에코에 자신이 원하는 인형의 집과 쿠키를 사달라고 말했다. 그러자 아마존 에코는 꼬마의 말대로 주문했고 며칠 후 꼬마의 집으로 4파운드의 쿠키와 170달러 짜리 키즈크래프트사의 대형 인형의 집이 배달됐다.
더 큰 사건은 그 다음에 일어났다. 꼬마가 사는 지방방송국의 뉴스에서 이 해프닝을 보도하던 앵커가 마지막 뉴스 멘트로 “알렉사, 나도 인형의 집을 사줘”라고 말한 것이다. 그러자 그 뉴스를 청취하던 집에 놓인 아마존 에코들이 일제히 인형의 집을 주문하기 시작했다.
난데없이 인형의 집을 주문하게 된 사람들이 주문을 취소하는 소동이 벌어졌고 아마존은 이에 인형의 집 주문을 모두 취소시켰다.
아직 스마트 스피커를 일상 속 친구처럼 사용하지 않는 우리에게는 다소 낯선 광경처럼 보일수도 있지만 대화형 플랫폼으로써 스마트 스피커는 상업용 제품으로서 가장 빠르게 성장하고 있는 분야다.
시장조사 기관인 가트너가 발표한 ‘2018 CIO 조사’에 따르면 응답에 참여한 조직의 4%가 이미 대화형 플랫폼 기술에 투자하고 있으며 대화형 인터페이스를 활용 중인 것으로 나타났다. 응답자의 17%는 대화형 플랫폼 기술을 단기 계획으로 추진하거나 적극적인 실험을 진행하고 있는 것으로 답했다.
또한 가트너는 인공지능 스피커 시장 규모가 2020년에는 21억 달러에 이를 것으로 전망했는데 실제로 인공지능 스피커 시장에는 제조사, IT기업, 이동통신사들이 시장점유율 확보를 위해 적극 참여하고 있다.
인공지능 스피커는 홈 IoT, 차량 등과 연동 가능한 커넥티드 디바이스로서의 가치를 지니고 있어 주목할 만하다. 이 비즈니스가 성공할 수 있는 핵심은 바로 스피커 기능의 확장이다. 인공지능이 영혼이라면 스피커는 육체라 볼 수 있다.
국내 시장은 이동통신사와 포털사업자를 중심으로 시장이 형성돼 왔는데 KT와 SK텔레콤은 IPTV와 연동해 소비자들에게 친숙하게 다가갔다. 최근에는 음성인식의 한계를 극복하고자 스마트 스피커에 시각정보를 추가하는 경향이 나타나고 있다.
스마트 스피커 전문매체인 'Voicebot.ai'의 조사에 따르면, 2019년 미국 스마트 스피커 보유자들의 13.2%가 디스플레이 기능이 추가된 스마트 스피커를 보유한 것으로 나타났다. 하지만 영상통화 기술이 발전해도 여전히 음성통화 사용량이 강세를 보이는 것처럼 음성을 기반으로 하는 스피커가 영향력을 유지할 가능성도 배제하기 어렵다.
또한 인공지능 스피커가 사람의 말과 다른 반응을 보이는 이유가 딥러닝에 있다는 점도 새로운 시각을 제시한다. 딥러닝에 기반한 시스템 알고리즘 대신 사람의 목소리 자체를 사진처럼 캡쳐해서 기억하게 한다면 어떨까?
아날로그 소리인 사람의 목소리를 마이크로폰을 통해 어떠한 상황에서도 깨끗하게 캡쳐한 후 디지털 장치인 디바이스에 소리신호로 전달해 기억하도록 하는 ADC(Analog to Digital Converter) 장치가 그 대안이 될 수 있을 것이다.
▲아비 무피리 TI 오디오 코덱 & 컨버터
제품 마케팅 매니저 (사진=이수민 기자)
시끄러운 환경에서도 발화자의 목소리가 작은 경우에도 음성 명령을 정확히 포착하고 이해하게 만든 디바이스를 개발한 기업이 있어 해당 제품 엔지니어를 직접 만나 봤다. 바로 TI의 오디오 제품 마케팅 엔지니어 아비 무피리(Abhi Muppiri)다.
- 기존 경쟁 디바이스 대비 4배 더 먼 거리에서 선명한 품질의 오디오를 구현한 제품이 있다던데 제품에 대한 소개 부탁드립니다.
새로운 오디오 아날로그 디지털 컨버터(ADC)는 TLV320ADC5140입니다. 업계 내 동일한 성능을 구현하는 제품군 중에서 가장 작은 4채널 오디오 ADC입니다.
이 디바이스는 3개의 TI 버브라운(Burr-Brown) 오디오 ADC로 이뤄진 것으로 어떠한 환경에서도 원거리 하이파이(high-fidelity) 레코딩 성능 구현은 물론 시끄러운 환경에서도 저왜곡 오디오 레코딩을 수행할 수 있습니다.
하이엔드 스피커, 사운드 바, 무선 스피커, 고선명 TV, IP 네트워크 카메라, 화상회의 시스템, 스마트 가전기기와 같은 애플리케이션으로 원거리 오디오 포착 능력을 향상시키고 저음량 명령을 더 잘 감지할 수 있도록 설계됐습니다.
TLV320ADC5140는 또한 어레이의 마이크로폰 수를 줄일 수 있어 시스템 비용도 절감할 수 있는 장점을 갖고 있습니다.
- 송수신간 거리, 주변 장애물 등에 따라 전송세기가 약해질 경우 신호대 잡음비(S/N)값도 작아지는데 어떻게 저왜곡 오디오 레코딩 및 하이파이레코딩 기능을 가지면서도 106dB 이상의 동적 범위의 신호대 잡음비를 가질 수 있나요?
사용자와 디바이스 간 거리가 멀어지면 당연히 소리 신호도 약해지는데 TLV320ADC5140에는 동적 범위 향상기인 DRE(Dynamic Range Enhancer)를 탑재해 이를 해결했습니다.
DRE는 시스템 차원에서 저음량 오디오 신호를 강화하고 스피커 출력과 근접해서도 저왜곡 레코딩을 유지할 뿐만 아니라 모든 환경에서 원거리 하이파이 레코딩 기능을 구현합니다.
즉 아주 약한 소리신호가 디바이스에 들어와도 이 신호를 증폭시키는 단계를 반복함으로써 사용자의 목소리를 정확하게 캡쳐할 수 있는 것입니다.
TLV320ADC5140 제품의 가장 큰 특징이 바로 마이크로폰의 마이크에 의존해 소리를 깨끗하고 정확하게 캡쳐한다는 점입니다. 기본적 성능에 대한 하드웨어는 디바이스 내에 탑재되어 있으며 소리의 감도를 어느정도로 설정할 것인가는 사용자가 소프트웨어를 통해 제어할 수 있습니다.
멀티 채널인 이번 제품은 4채널 아날로그 마이크 또는 8채널 디지털 PDM 마이크를 설치할 수 있으며 아날로그와 디지털 마이크를 조합해서 사용할 수도 있습니다.
- 이번 제품의 큰 특징 중 하나가 바로 동일한 성능을 구현하는 제품군 중에서 가장 작은 크기의 4채널 오디오라고 했는데 어떻게 작은 사이즈의 ADC를 만들 수 있었나요? 송신 안테나의 수와 크기를 늘려 S/R을 높였다면 물리적으로 ADC 안에서 차지하는 비율도 높아질 것 같은데요.
TLV320ADC5140는 소리 신호를 받을 때 송신 안테나가 아닌 마이크로폰에 주로 의존합니다. 소리를 캡쳐해서 변환하기 때문에 ADC뿐만 아니라 마이크로폰도 중요하게 고려하고 있죠.
아날로그의 경우 4개, 디지털은 8개의 마이크로폰을 탑재하기 때문에 저희는 최신 프로세스 기술을 사용해 크기를 조절하고 있습니다. 아날로그 마이크로폰은 통상적으로 하이엔드에 사용하고 디지털 마이크로폰은 노트북이나 PC에 사용합니다.
하지만 2018년 스마트 스피커의 등장으로 디지털 마이크로폰의 신호음성비(Signal-Voice Ratio)가 더 좋아졌습니다. 그렇기 때문에 이제는 하이엔드에만 들어가던 제품을 노트북이나 PC에도 탑재할 수 있으며 최고 110dB까지 소화 가능합니다.
예를 들어 디지털 마이크로폰의 경우 전력소비가 적다는 점이 가장 큰 장점으로 우리가 보안용으로 설치하는 IP카메를 꼽을 수 있죠. 누군가 집 안으로 침입하면 디지털 마이크로폰이 작동하면서 시스템이 함께 동작되도록 디자인된 것입니다.
아날로그 마이크로픈은 소리 감지력(오디오 품질)이 좋기 때문에 TLV320ADC5140 제품의 경우 아날로그와 디지털을 조합해 고객들이 원하는대로 맞춤형 설계를 할 수 있습니다. 디바이스 멀티채널인풋타입인 셈이죠.
- 시끄러운 환경에서도 먼거리에 있는 소리를 저왜곡 오디오 레코딩할 수 있다고 했는데 원하는 소리를 타겟팅하는 기술은 무엇입니까?
ADC의 주된 역할 중 하나가 바로 알고리즘에 소리 신호를 전달하는 것입니다. 시끄러운 환경에서도 원하는 소리를 정확히 잡아 깨끗하게 캡쳐해 내는 것이죠.
이는 녹음을 통해 입력된 소리를 알고리즘에 전달해 알고리즘이 어떤 사용자의 소리를 선택할 것인가 결정하는 기술입니다. 전달된 신호 내에서 알고리즘이 말하는 대상이 누구인지 내용이 무엇인지를 정확히 파악해 내는 것입니다.
- TLV320ADC5140 제품의 경우 크기가 작다는 장점이 있는데 전자제품의 경우 크기가 작아지면 집적도는 향상되지만 발생하는 열은 오히려 더 많아지지 않나요. 발열 문제는 어떻게 해결하셨는지요
성능이 집적될수록 발생하는 열도 많아지는 것은 사실입니다. 이런 문제를 해결하기 위해 TI의 TLV320ADC5140는 프로세스 기술을 잘 접목화된 방법으로 설계해 대응하고 있습니다.
소비전력은 가장 낮으면서도 성능은 최대한으로 높이는 프로세스를 적용하고 시스템 디자인 시 주변기기와 함께 디자인함으로써 소비전력이나 발열 문제가 생겼을 때 주변기기를 통해 적절하게 끄고 켤수 있도록 설계했습니다.
현재 ADC에서 소비하는 전력은 채널당 9mW입니다. 특히 이번 제품은 기존 모델보다도 더 적은 전력을 소모하도록 고안됐습니다.
TI는 이미 TLV320ADC3101 제품을 통해 발열 문제에 이상이 없다는 것을 입증했습니다. TLV320ADC3101의 경우 대부분의 AI 스피커에 탑재돼 있습니다.
- 지난해 12월 카식 바산스(Karthik Vasanth) TI 데이터 컨버터 부문 부사장은 사이즈 축소는 물론 속도향상에도 많은 투자를 하겠다는 의지를 표명했습니다. 1년의 시간이 흐른 지금 새롭게 출시된 TLV320ADC5140 제품의 속도는 얼마만큼 향상되었습니까.
TLV320ADC5140의 샘플링 속도는 768KHz입니다. 현 시장 샘플링 중 가장 빠른 속도로 현재 고성능 스마트 스피커에도 사용할 수 있는 사양입니다.
이전 세대 제품 샘플링의 속도가 192KHz인 점을 고려해보면 이전보다 4배 빠른 속도를 구현하고 있다고 할 수 있습니다.
- 'TI Audio Innovation: Trends in Automotive, Smart Home and Pro Audio Applications' 자료에 따르면 마이크 어레이는 말하는 사람을 즉시 결정할 수 있고 스피커를 마주보는 마이크만 켜지고 과도한 소음발생을 줄이고자 다른 마이크는 모두 꺼진다고 되어 있는데 말하는 사람을 즉시 결정할 수 있는 기술이 무엇인지 설명해 주시겠습니까
시스템 알고리즘을 통해 구현합니다. 스테레오 어쿠스틱 에코 캔슬레이션(Stereo Acoustic Echo Cancellation, AEC)과 빔포밍(Beamforming) 기술을 통해 어떤 스피커가 말하고 있는지 어떤 방향에서 소리가 나는지를 결정할 수 있습니다.
즉 어떠한 소음이 발생해도 원하는 소리를 깨끗하게 잡아서 DSP에 전달하는 것이 TI TLV320ADC5140의 핵심기술입니다.
- 한국 엔지니어들을 위해 TI 제품의 특징에 대해 간략하게 소개해 주시겠습니까
한국 기업들은 관련 기술을 도입하는 최초의 기업들입니다. TI의 TLV320ADC5140은 오디오를 깨끗한 상태로 캡쳐해서 전달하는 것이 주요 특징인 만큼 사용 분야가 무궁무진하다고 봅니다.
무엇보다 고객사가 원하는 맞춤형 조합으로 설계할 수 있어 요구하는 모든 어플리케이션에 전부 사용할 수가 있습니다.
아비 무피리(Abhi Muppiri)는 시스템 및 애플리케이션 엔지니어링과 설계 분야에서 10년 이상의 경력을 보유한 베테랑 엔지니어다. 현재 개인 전자기기용을 비롯한 산업용 오디오 ADC 및 오디오 코덱 투자에 대한 고객 참여, 콘텐츠 제작, 수요 창출 및 가격 책정 전략 부문을 담당하고 있다.