OpenAI DevDay, 최고급 청바지를 선보이다.

“골드러시 시대에는 금맥을 찾는 대신 청바지나 곡괭이를 팔아라”라는 비즈니스 격언, 한 번쯤 들어보셨을 겁니다. 과거 캘리포니아에서 금광이 발견되었을 때, 수많은 사람들이 금을 찾기 위해 몰려들었지만, 정작 가장 큰 수익을 올린 사람들은 그들에게 청바지나 곡괭이를 판 상인들이었다는 데에서 유래됐는데요. 최근 AI 골드러시 시대에도 청바지로 비유되는 GPU를 판매한 엔비디아가 가장 큰 수혜를 입으며 격언을 또 한 번 입증했습니다.

참고로 이 AI 골드러시 시대를 연 주역은 바로 OpenAI입니다. 이들은 생성형 AI라는 금광을 발견해 세상에 알리는데 큰 역할을 했는데요. 금광을 발견함과 동시에 가장 먼저 채굴(ChatGPT Plus 요금제 도입 등)을 시작했지만, 이것만으로는 수익이 불확실해지자 안정적인 수익을 낼 수 있는 청바지(API, 인프라)를 제작하기 시작했습니다.

그리고 지난 10월 1일(현지시간)에 진행된 OpenAI Devday 2024는 자신들이 열심히 만든 최고급 청바지를 선보이는 자리였습니다.

# Realtime API : 야너두 음성대화 앱 만들 수 있어!

OpenAI는 이번 Devday에서 총 4개의 주요 업데이트를 공개했습니다. 그중에서도 가장 큰 관심을 받은 것은 ‘Realtime API’입니다. 이 API는 음성 대화를 실시간(저지연)으로 주고받을 수 있다는 점이 특징인데요. 겉으로는 크게 특별해 보이지 않을 수 있지만, 자세히 들여다보면 그 의미는 상당히 큽니다.

우선, 기존에는 음성 대화를 처리하기 위해 다음과 같은 3단계를 거쳐야 했습니다.

1) 음성 인식 (Speech-to-Text)

2) 의도 파악 및 답변 생성 (GPT 등 AI 모델)

3) 음성 출력 (Text-to-Speech)

이처럼 여러 단계를 거치다 보니 시간과 리소스 면에서 비효율적이었는데요. 게다가 각 단계가 독립된 모델로 이루어져 있어, 처음 입력된 정보(억양이나 높낮이 등)가 중간에 누락되거나 왜곡되는 경우가 많았습니다. 마치 고전 게임 ‘방과 방 사이’에서 첫 사람이 전달한 의도가 마지막까지 정확히 전달되지 않아 오답을 말하는 것과 비슷합니다.

출처 : 스픽

Realtime API는 3단계를 하나로 통합하여 기존의 문제점들을 해결했습니다. 하나의 과정으로 처리되기 때문에 시간과 리소스의 효율성이 크게 향상되었고, 입력된 정보도 누락되거나 왜곡되지 않은 상태로 답변을 생성할 수 있게 됐습니다. 특히 웹소켓 방식을 적용하여 대화가 종료되기 전까지 지속적으로 양방향 통신이 가능해져 지연 시간이 크게 줄어들었습니다.

이 API가 특별한 이유는 그 활용 가능성이 무궁무진하기 때문입니다. 우선, AI 기반의 대화형 영어 학습 서비스의 발전을 기대할 수 있고, 손을 사용할 수 없는 자동차 안에서 음성만으로 다양한 서비스와 기능을 제어할 수 있게 될 것입니다. 또한, 예약/AS/구매와 같은 전화 상담원의 역할을 상당 부분 대체할 수 있을 것으로 예상됩니다.

더 나아가, ‘Function Calling’ 기능을 통해 외부 API와 쉽게 연동하여 금융 정보나 공공 데이터를 자동으로 불러와 제공할 수 있어, 개발자들은 Realtime API 하나만으로도 다양하고 혁신적인 아이디어를 직접 구현해 볼 수 있는 장이 마련됐습니다.

# Vision fine-tuning : 이제 이미지도 파인튜닝할 수 있어!

OpenAI가 두 번째로 선보인 청바지는 ‘Vision fine-tuning’입니다. 기존에는 대부분 텍스트에 한해 fine-tuning(미세 조정)이 가능했지만, 이제는 이미지에도 이를 적용할 수 있게 된 것인데요. 사용자가 직접 학습할 이미지를 선택해 모델의 성능을 미세 조정할 수 있어, 보다 특화되고 개인화된 서비스를 개발할 수 있게 됐습니다.

OpenAI는 이 기술을 설명하며 ‘그랩(Grab)’의 사례를 예로 들었습니다. 그랩은 동남아시아 전역에서 차량 공유 서비스와 배달 사업 등을 운영하는 기업으로, 도로 교통 상황에 굉장히 많은 영향을 받는데요. 이를 위해 자체 지도 앱인 GrabMaps를 사용하고 있지만, 정확도가 높지 않아 성능 개선이 시급한 상황이었습니다.

출처 : OpenAI

그랩은 성능 개선을 위해 OpenAI의 Vision fine-tuning을 통해 미세 조정을 진행했고, 단기간에 성과를 거두었습니다. 구체적으로는 차선 수 인식 정확도는 20%가 개선되었고, 속도 제한 표지판의 위치 파악 정확도는 13%가 향상되었습니다. 특히 단 100개의 이미지로 이러한 결과를 얻었다는 점이 주목할 만합니다.

OpenAI는 이 기능을 통해 시각 검색, 자율 주행차나 스마트 시티를 위한 객체 감지, 의료 이미지 분석과 같은 다양한 분야의 앱이 발전할 수 있을 것이라고 기대하고 있습니다.

# Prompt Caching : 물어봤던 거네? 반값에 해줄게!

Caching(캐싱)이란 자주 사용되는 데이터나 결과를 임시 저장소(캐시)에 저장해 두고, 필요할 때 빠르게 가져다 쓰는 기술을 말합니다. 예를 들어, 웹사이트를 방문할 때 웹 브라우저는 이미지나 HTML 파일을 캐시에 저장해 두고, 다음에 방문하면 서버에서 다시 데이터를 가져오지 않고 캐시에서 불러와 로딩 속도가 빨라집니다. 데이터를 다시 다운로드할 필요가 없어 서버 부담이 줄고, 네트워크 사용량이 줄어드는 장점이 있습니다.

출처 : OpenAI

OpenAI는 이러한 캐싱 기술을 프롬프트에도 적용했습니다. 즉, 비슷한 요청이 반복해서 들어올 경우 이를 기억하고 있다가 빠르게 답변을 내놓을 수 있게 됐습니다. 단순히 속도만 개선이 된 것이 아니라 저장된 요청에 대한 응답 시에는 입력 토큰 금액을 절반만 지불하도록 하여 비용 절감 효과도 누릴 수 있습니다.

(흥미로운 점은 OpenAI의 경쟁사인 Anthropic이 이미 지난 8월에 이 기능을 먼저 도입했으며, 비용을 최대 90%까지 절감할 수 있다고 발표한 바 있다는 것!)

# Distillation : 작은 모델로도 충분해!

대형 언어 모델(LLM)은 뛰어난 성능을 자랑하지만, 그만큼 무겁고 비용이 많이 든다는 단점이 있습니다. 마치 슈퍼카와 비슷합니다. 그러나 아무리 슈퍼카가 있더라도 동네 마트에 갈 때는 경차를 타고 가는 것이 더 효율적인 것처럼, 항상 큰 모델만 사용하는 것이 최선은 아닙니다. 간단한 서비스를 만들 때는 모델의 크기를 줄여 비용을 절감하는 것이 필요한데, 이를 위해 OpenAI가 제안한 기능이 바로 ‘Distillation(정제, 증류)’입니다.

출처 : OpenAI

Distillation을 활용해 작은 모델을 만드는 방법은 다음과 같습니다.

1) OpenAI에서 제공하는 큰 모델들 중 하나를 선택한다.

2) 어떻게 정제할 것인지 세팅한다.

3) 큰 모델을 사용해 생성된 요청-답변 세트를 저장한다.

4) 저장된 세트를 기반으로 작은 모델을 파인 튜닝(미세 조정)한다.

5) 파인 튜닝된 작은 모델과 큰 모델의 성능을 비교한다.

6) 필요에 따라 1~5 단계를 반복하며 작은 모델의 성능을 계속해서 개선한다.

또한, OpenAI는 이 모든 과정을 플랫폼화하여 개발자들의 수고를 덜어주었습니다. 덕분에 각 개발자는 자신에게 필요한 모델들을 직접 파인 튜닝하고, 원하는 만큼 모델 크기를 줄여 응답 시간과 비용을 절감할 수 있게 됐습니다.

# 스타트업 멸망의 날에서 스타트업 희망의 날로?

지난해 OpenAI Devday가 끝난 후, 업계에서는 “스타트업 멸망의 날”이라는 표현이 나왔습니다. 특히, 몇 번의 자연어 대화만으로 맞춤형 GPT를 만들 수 GPT Builder의 등장은 이 분야에 뛰어들던 수많은 스타트업들에게 절망적인 소식으로 받아들여졌습니다.

하지만 올해 Devday에서는 분위기가 사뭇 달라졌습니다. AI가 없는 서비스는 상상하기 어려워진 시대에, 간단한 아이디어만 있으면 누구나 저렴한 비용으로 AI 서비스를 만들 수 있도록 환경을 조성해 준 것입니다. 특히 Realtime API와 Function Calling 기능은 기존 앱들의 한계를 뛰어넘는 새로운 기회를 제공해, 스타트업들에게 다시금 희망을 주고 있습니다.

이러한 변화를 보며 OpenAI가 1년 사이에 굉장히 능구렁이 같아졌다는 생각이 들었습니다. 지난해까지만 하더라도 자신들이 최고라는 자신감과 AI로 세상을 바꾸겠다는 야심을 앞세워 필요 이상의 주목을 받아 견제의 대상이 되었다면, 올해는 그 야심을 감추고 더 큰 생태계를 구축하기 위한 전략을 은근히 펼치고 있는 듯 보였습니다.

Realtime API와 같은 도구는 겉보기에 개발자와 기업들을 돕는 도구처럼 보이지만, 실제로는 그들이 OpenAI 플랫폼에 점점 더 의존하게 만들고, 원천 기술 개발 대신 OpenAI 생태계 안에 머물게 할 가능성이 큽니다.

# 마치며

최근 OpenAI는 또 한 번의 대규모 투자 유치를 통해 영리 기업으로의 전환을 예고하고 있습니다. 이번 Devday 2024의 발표 역시 이러한 전환을 염두에 둔 전략적 행보로 풀이되는데요. ChatGPT 발표 후 1년, 1년이 다른 OpenAI. 과연 내년에는 또 어떤 모습으로 우리 앞에 나타나게 될지 궁금해집니다.

*위 글은 ‘테크잇슈’ 뉴스레터에 실린 글입니다.

테크잇슈는 제가 직접 만드는 쉽고 재밌는 IT 트렌드 레터입니다.

IT 이슈 모음과 위와 같은 칼럼을 전달드리고 있으니, 관심 있는 분들은 구독 부탁드립니다 🙂

테크잇슈 구독하러 가기

이재훈님의 더 많은 생각이 궁금하다면?

https://brunch.co.kr/@dldyfm

위픽레터 구독 가입하기

로딩 중...

OpenAI DevDay, 최고급 청바지를 선보이다.

# Realtime API : 야너두 음성대화 앱 만들 수 있어!

1) 음성 인식 (Speech-to-Text)

2) 의도 파악 및 답변 생성 (GPT 등 AI 모델)

3) 음성 출력 (Text-to-Speech)

# Vision fine-tuning : 이제 이미지도 파인튜닝할 수 있어!

# Prompt Caching : 물어봤던 거네? 반값에 해줄게!

# Distillation : 작은 모델로도 충분해!

# 스타트업 멸망의 날에서 스타트업 희망의 날로?

# 마치며

*위 글은 ‘테크잇슈’ 뉴스레터에 실린 글입니다.

테크잇슈는 제가 직접 만드는 쉽고 재밌는 IT 트렌드 레터입니다.

IT 이슈 모음과 위와 같은 칼럼을 전달드리고 있으니, 관심 있는 분들은 구독 부탁드립니다 🙂

테크잇슈 구독하러 가기

맞춤 채용 정보

함께 보면 좋은 관련 콘텐츠