음성인식 기술의 간략한 역사(1) – A Brief History of ASR: Automatic Speech Recognition

(이 글은 Descript사의 기술 블로그에 올라온 자동 음성 인식 기술에 대한 소개 아티클로서,  Descript 사의 요청으로 게재되었습니다.  글의 내용을 축약하는 식으로 번역하였고, 더 상세한 내용은 원문을 통해 읽으실 수 있습니다.)


음성인식 기술은 반세기에 걸쳐 여러 한계점을 극복해오며 발전해왔다. 이 글에서는 그 과정을 간략히 살펴보고,  어떤 기술적 진보들이 이루어져 왔는지 설명하고자 한다.

This moment has been a long time coming. The technology behind speech recognition has been in development for over half a century, going through several periods of intense promise — and disappointment. So what changed to make ASR viable in commercial applications? And what exactly could these systems accomplish, long before any of us had heard of Siri?

음성인식 기술의 발전은, 아예 새로운 기술의 발명으로 이루어지기도 했지만, 기존 기술을 사용한 다양한 어프로치에 기인한 점도 만만치 않다.  오디오, 언어 구조, 통계적 어프로치 등을 사용해서 언어에 대한 연구가 이루어져 왔다.

The story of speech recognition is as much about the application of different approaches as the development of raw technology, though the two are inextricably linked. Over a period of decades, researchers would conceive of myriad ways to dissect language: by sounds, by structure — and with statistics.

초기 연구 – Early Days

음성인식 분야에서는 20세기 중반이 되어서야 의미있는 결과가 나오기 시작했다.

Human interest in recognizing and synthesizing speech dates back hundreds of years (at least!) — but it wasn’t until the mid-20th century that our forebears built something recognizable as ASR.

1961 — IBM Shoebox

1952년 벨 연구소에서는 “Audrey”라는 숫자 인식기 프로젝트를 진행하였다. Formant 라는 오디오 특성을 사용해서 음성에서 어떤 숫자를 말하고 있는지 인식하는 장치였다.

Among the earliest projects was a “digit recognizer” called Audrey, created by researchers at Bell Laboratories in 1952. Audrey could recognize spoken numerical digits by looking for audio fingerprints called formants — the distilled essences of sounds.

1960년대, IBM에서는 숫자와 그에 대한 사칙연산 음성을 알아 듣는 “Shoebox”라는 시스템을 개발하였다.

In the 1960s, IBM developed Shoebox — a system that could recognize digits and arithmetic commands like “plus” and “total”. Better yet, Shoebox could pass the math problem to an adding machine, which would calculate and print the answer.

일본의 연구자들은 음성에서 모음부분을 인식하는 하드웨어를 개발하였다. 또한 음성의 구조를 분석해서 한 단어가 어디에서 끝날지를 판단할 수 있는 시스템도 개발되었다. 영국의 한 대학 연구팀에서는 phoneme 레벨에서의 분석으로 통해 4개의 모음과 9개의 자음을 인식할 수 있는 시스템을 개발하였다.

Meanwhile researchers in Japan built hardware that could recognize the constituent parts of speech like vowels; other systems could evaluate the structure of speech to figure out where a word might end. And a team at University College in England could recognize 4 vowels and 9 consonants by analyzing phonemes, the discrete sounds of a language.

이런 결과들에도 불구하고, 이 연구가 궁극적으로 어떤 목표를 향해 가고 있는지가 명확하지 않았기 때문에 음성인식 분야는 매우 어려운 시기를 맞이하게 된다.

But while the field was taking incremental steps forward, it wasn’t necessarily clear where the path was heading. And then: disaster.


October 1969 The Journal of the Acoustical Society of America

시련의 시기 – A Piercing Freeze

Pierce가 위와 같은 서신을 쓴 이후 많은 것이 달라졌다. Pierce는 세계적으로 유명하고 매우 유능한 엔지니어였는데, 1969년에 벨 연구소의 소장을 맡고 있었다. (벨 연구소는 음성인식에 많은 연구비를 투자하고 있었다.)

The turning point came in the form of a letter written by John R. Pierce in 1969.

Pierce had long since established himself as an engineer of international renown; among other achievements he coined the word transistor (now ubiquitous in engineering) and helped launch Echo I, the first-ever communications satellite. By 1969 he was an executive at Bell Labs, which had invested extensively in the development of speech recognition.

The Journal of the Acoustical Society of America에 게재된 이 기사에서 Pierce는, 음성 인식 분야의 과학적 엄격함이 부족하다고 꼬집었다.

In an open letter³ published in The Journal of the Acoustical Society of America, Pierce laid out his concerns. Citing a “lush” funding environment in the aftermath of World War II and Sputnik, and the lack of accountability thereof, Pierce admonished the field for its lack of scientific rigor, asserting that there was too much wild experimentation going on:

“We all believe that a science of speech is possible, despite the scarcity in the field of people who behave like scientists and of results that look like science.” — J.R. Pierce, 1969

Pierce는 벨연구소의 음성인식 프로그램의 펀딩을 취소했고 이는 1971년 그가 사임할 때까지 이어졌다.

Pierce put his employer’s money where his mouth was: he defunded Bell’s ASR programs, which wouldn’t be reinstated until after he resigned in 1971.

그럼에도 계속되는 연구 – Progress Continues

하지만 음성인식연구에 대해 희망적으로 보는 곳들도 있었다. 1970년대초, DARPA는 5년짜리 ‘음성이해연구’ 프로그램에 연구비를 지원했다. 이 연구를 통해 여러 새로운 ASR 시스템들이 개발되었다. 그중 가장 성공적인 것은 카네기멜론 대학의 Harpy였는데, 1976년에는 1000여개의 단어를 인식할 수 있었다.

Thankfully there was more optimism elsewhere. In the early 1970s, the U.S. Department of Defense’s ARPA (the agency now known as DARPA) funded a five-year program called Speech Understanding Research. This led to the creation of several new ASR systems, the most successful of which was Carnegie Mellon University’s Harpy, which could recognize just over 1000 words by 1976.

또한 IBM과 AT&T의 벨 연구소는 상업적 어플리케이션에 쓸 수 있을 정도로 기술을 발전시켰다. IBM은 사무실에서 이루어지는 커뮤니케이션에 대한 transcription에 초점을 맞추어 연구를 진행했고, Bell 연구소는 ‘명령과 수행’ 시나리오에 맞추어 연구를 수행했다. (음성 다이얼, phoneme 트리구조 등을 연구)

Meanwhile efforts from IBM and AT&T’s Bell Laboratories pushed the technology toward possible commercial applications. IBM prioritized speech transcription in the context of office correspondence, and Bell was concerned with ‘command and control’ scenarios: the precursors to the voice dialing and automated phone trees we know today.

이같은 발전에도 불구하고 1970년대말 ASR 기술은 다양한 상황에 적용하기에는 무리가 많은 상황이었다.

Despite this progress, by the end of the 1970s ASR was still a long ways from being viable for anything but highly-specific use-cases.


This hurts my head, too.

80년대: 말코프 체인 등 – The ‘80s: Markovs and More

1980년대 중반 HMM 아키텍쳐의 보급은 ASR에도 터닝포인트가 되었다. 이 아키텍쳐를 통해서, ASR 분야에서도 단순한 패턴인식 방식으로부터 큰 개선이 이루어졌다.

A key turning point came with the popularization of Hidden Markov Models(HMMs) in the mid-1980s. This approach represented a significant shift “from simple pattern recognition methods, based on templates and a spectral distance measure, to a statistical method for speech processing”—which translated to a leap forward in accuracy.

1960년대 후반 이후 음성인식 시스템의 큰 성능개선은 이런 통계적 어프로치의 힘에 기인한다. 또한 이를 위한 computation을 가능하게 하는 컴퓨팅 기술의 힘에 기인한다.

A large part of the improvement in speech recognition systems since the late 1960s is due to the power of this statistical approach, coupled with the advances in computer technology necessary to implement HMMs.

HMM 기술은 이 산업에 큰 영향을 끼쳤지만, 이는 서서히 이루어졌다. 1960년대에 Leonard E. Baum이 처음 음성인식에 HMM을 도입하는 개념을 소개했고, 1970년대 초에 CMU에서 Jim Baker가 실제로 도입했고,  80년대 Jack Ferguson이 명확한 개념을 Institute for Defense Analyses에서 강의했다.

HMMs took the industry by storm — but they were no overnight success. Jim Baker first applied them to speech recognition in the early 1970s at CMU, and the models themselves had been described by Leonard E. Baum in the ‘60s. It wasn’t until 1980, when Jack Ferguson gave a set of illuminating lectures at the Institute for Defense Analyses, that the technique began to disseminate more widely.

IBM 왓슨 연구소에서 Frederick Jelinek이 HMM을 이용해 성공적인 모델을 개발했다. 그는 70년대부터 꾸준히 통계 모델이 음성을 해석하는 데에 효과적이라고 주장해왔다.

The success of HMMs validated the work of Frederick Jelinek at IBM’s Watson Research Center, who since the early 1970s had advocated for the use of statistical models to interpret speech, rather than trying to get computers to mimic the way humans digest language: through meaning, syntax, and grammar (a common approach at the time). As Jelinek later put it: “Airplanes don’t flap their wings.”

이런 data-driven 방식은 산업에서 뿐 아니라 개인 연구자들에게도 큰 기회를 부여하게 되었다. ASR 분야는 표준화된 벤치마크용 테스트 셋을 제공하기 시작했고, 큰 음성 데이터를 오픈소스로 공유함으로써 많은 개별 연구자들이 연구에 사용할 수 있게 되었다.

These data-driven approaches also facilitated progress that had as much to do with industry collaboration and accountability as individual eureka moments. With the increasing popularity of statistical models, the ASR field began coalescing around a suite of tests that would provide a standardized benchmark to compare to. This was further encouraged by the release of shared data sets: large corpuses of data that researchers could use to train and test their models on.

다시말해, 음성인식의 결과에 대해 평가할 수 있는 객관적 지표가 드디어 마련된 것이다.

In other words: finally, there was an (imperfect) way to measure and compare success.


November 1990, Infoworld

90년대 : 일반 소비자 레벨의 접근 – Consumer Availability — The ‘90s

90년대에는 어쨌튼, (우리가 지금 경험하고 있는 것과 같이) 일반 소비자 레벨에서 ASR기술이 적용되기 시작했다.  1990년에 80,000개 단어와 자연어처리 기술을 포함하는 사전인 Dragon Dictate가 출시되었다. (9,000달러의 가격에..)

For better and worse, the 90s introduced consumers to automatic speech recognition in a form we’d recognize today. Dragon Dictate launched in 1990 for a staggering $9,000, touting a dictionary of 80,000 words and features like natural language processing (see the Infoworld article above).

이 사전의 음성 인식 기능을 사용하려면 특정 억양으로 매우 천천히 말해야만 했기 때문에 사실 매우 불편했다.

These tools were time-consuming (the article claims otherwise, but Dragon became known for prompting users to ‘train’ the dictation software to their own voice). And it required that users speak in a stilted manner: Dragon could initially recognize only 30–40 words a minute; people typically talk around four times faster than that.

그럼에도 불구하고 Dragon은 헬스케어, 법조계 등의 시장에서 소비를 창출하였고 회사는 성장하였다. 1997년에는 Dragon NaturallySpeaking 라는 신제품이 나왔고, 전보다 좀 더 자연스러운 음성에 대해서도 인식할 수 있게 되었다. (가격도 150달러에 불과했다.)

But it worked well enough for Dragon to grow into a business with hundreds of employees, and customers spanning healthcare, law, and more. By 1997 the company introduced Dragon NaturallySpeaking, which could capture words at a more fluid pace — and, at $150, a much lower price-tag.

하지만 좋은 면만 있었던 것은 아니다. 초기 제품들의 완벽하지 않은 기술에 비해 과장된 마케팅으로 인해, 소비자들은 ASR 자체에 회의감을 갖게 되기도 하였다. 그럼에도, 이 제품들은 ASR의 제품화를 이루어냈다는 것만으로 큰 의미를 갖는다.

Even so, there may have been as many grumbles as squeals of delight: to the degree that there is consumer skepticism around ASR today, some of the credit should go to the over-enthusiastic marketing of these early products. But without the efforts of industry pioneers James and Janet Baker (who founded Dragon Systems in 1982), the productization of ASR may have taken much longer.


November 1993, IEEE Communications Magazine

휘터 음성 인식—음성인식 제 2막 -Whither Speech Recognition— The Sequel

Pierce의 논문이 발표된지 25년이 지난 후(1993년), IEEE는 ‘Whither Speech Recognition: the Next 25 Years’ 라는 후속편을 게재했다. (벨 연구소의 2명의 연구원이 작성했다.)

25 years after J.R. Pierce’s paper was published, the IEEE published a follow-up titled Whither Speech Recognition: the Next 25 Years⁵, authored by two senior employees of Bell Laboratories (the same institution where Pierce worked).

여기에는 1993년 당시의 산업계에 대한 조사도 담겨있었고, 이를 통해 원본 (Pierce 글)에서 보였던 ASR기술에 대한 비관론에 반박을 하게 되었다.

  • Pierce의 글에서는 음성인식이 필요한 기술이 되려면 컴퓨터가 실제 그 단어들이 의미하는 바를 알 수 있어야 한다고 했다. 당시 기술로는 이것이 불가능하다고 여겨졌다.
  • 1993년도에는 컴퓨터의 언어에 대한 이해가 매우 부족한 수준이었다. (현재 2018년도에도 사실 언어에 대한 이해는 매우 부족하다.)
  • 하지만 언어에 대한 정확한 이해 없이도 음성인식을 위한 다양한 방식이 효과적일 수 있다는 것을 Pierce는 예측하지 못했다.

The latter article surveys the state of the industry circa 1993, when the paper was published — and serves as a sort of rebuttal to the pessimism of the original. Among its takeaways:

  • The key issue with Pierce’s letter was his assumption that in order for speech recognition to become useful, computers would need to comprehend what words mean. Given the technology of the time, this was completely infeasible.
  • In a sense, Pierce was right: by 1993 computers had meager understanding of language—and in 2018, they’re still notoriously bad at discerning meaning.
  • Pierce’s mistake lay in his failure to anticipate the myriad ways speech recognition can be useful, even when the computer doesn’t know what the words actually mean.

Whither sequel 은 1993년 이후 ASR이 가게될 방향을 예측하면서 마무리 된다. 예를 들면..

  • 2000년까지 더 많은 사람들이 타이핑보다 음성을 통해 정보를 엑세스하게 될 것이다.
  • 음성 인식 디바이스를 사용하기 위해 사람들은 본인의 발화 습관을 수정하는 법을 배우게 될 것이다. 이렇게 디바이스를 잘 쓰는 방식에 적응하면서도 사람들을 꾸준히 불평할 것이긴 하다.

The Whither sequel ends with a prognosis, forecasting where ASR would head in the years after 1993. The section is couched in cheeky hedges (“We confidently predict that at least one of these eight predictions will turn out to have been incorrect”) — but it’s intriguing all the same. Among their eight predictions:

  • “By the year 2000, more people will get remote information via voice dialogues than by typing commands on computer keyboards to access remote databases.”
  • “People will learn to modify their speech habits to use speech recognition devices, just as they have changed their speaking behavior to leave messages on answering machines. Even though they will learn how to use this technology, people will always complain about speech recognizers.”


다크호스 – The Dark Horse

이 아티클 시리즈는 앞으로 최신 음성 인식 기술에 대해 알아볼 것이다. 여기에서는 인공신경망이 중추적인 역할을 한다.

In a forthcoming installment in this series, we’ll be exploring more recent developments and the current state of automatic speech recognition. Spoiler alert: neural networks have played a starring role.

하지만 사실 인공신경망은 앞서 소개한 기술들 만큼이나 역사가 오래된 기술이다. (1950년대 등장) 하드웨어의 계산량이 증가하면서 현재의 기술들이 가능해지기 시작했을 뿐이다.

But neural networks are actually as old as most of the approaches described here — they were introduced in the 1950s! It wasn’t until the computational power of the modern era (along with much larger data sets) that they changed the landscape.

다음 화를 기다려 주세요!..

But we’re getting ahead of ourselves. Stay tuned for our next post on Automatic Speech Recognition by following Descript on Medium, Twitter, or Facebook.

Timeline via Juang & Rabiner


This article is originally published at Descript.

(이 글은 Descript사의 기술 블로그에 올라온 자동 음성 인식 기술에 대한 소개 아티클로서,  Descript 사의 요청으로 게재되었습니다.  글의 내용을 축약하는 식으로 번역하였고, 더 상세한 내용은 원문을 통해 읽으실 수 있습니다.)


Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out /  Change )

Google photo

You are commenting using your Google account. Log Out /  Change )

Twitter picture

You are commenting using your Twitter account. Log Out /  Change )

Facebook photo

You are commenting using your Facebook account. Log Out /  Change )

Connecting to %s