주 메뉴 바로가기 본문 내용 바로가기

미래에셋증권 홈페이지

'DeepSeek 쇼크' 총정리
제본스의 역설과 AI 투자의 향방 vol. 1

'DeepSeek 쇼크' 총정리 제본스의 역설과 AI 투자의 향방 vol. 1
메인 이미지 보이기
  • 처음 >
  • 글로벌 포커스 >
  • 글로벌 핫이슈
기고: 디지털리서치팀 한종목 선임매니저, 김은지매니저

I. AI Issue: DeepSeek Inside Out!

1. DeepSeek R1 등장

(1) DeepSeek Shock

DeepSeek R1에 관한 이야기가 글로벌 헤드라인을 장악했습니다. 바로 지난 AI Weekly에서 이 모델에 대해 자세히 다룬 바 있지만 이 정도로 파급력이 클지는 예상하지 못했습니다. 사실 나름의 이유가 있었습니다. DeepSeek R1이 아닌 V3가 기술적으로 그 의미가 더 출중했다고 보였기 때문이었습니다. 그럼에도 V3가 아닌 R1에 세상이 들썩인 것은 기술적인 의미보다는 더욱 더 사회적 맥락에서 파악해야 했음을 조금 간과한 부분에 있어, 우리 팀은 다소 반성을 하기도 했습니다.

'중국' 기업 DeepSeek의 R1이 만들어 낸 영향력은 대단했습니다(물론 지금은 다시 내려갔지만). DeepSeek 앱은 R1의 등장에 힘입어 앱스토어 1위로 치솟았고, 일일 트래픽도 Claude, Perplexity, 심지어 구글의 Gemini보다 훨씬 많기도 했습니다. 참고로 앤트로픽의 Claude는 단 한 번도 앱스토어 1위를 기록한 적이 없다는 점을 감안하면 꽤 놀라운 성과라고 할 수 있습니다.

그림 1 DeepSeek의 놀라운 파급력, '애플 앱스토어에서 ChatGPT마저 누르고 다운로드 1위'
자료: Apple Appstore, 미래에셋증권 리서치센터

반대로 미국 기술주는 폭락했습니다. 엔비디아는 미국 주식 시장 역사상 최대 규모의 일간 손실금액으로 약 5천억 달러를 기록했습니다. (OpenAI 프로젝트인) Stargate 하나가 하룻밤 사이에 날아간 셈입니다. 트럼프 대통령은 DeepSeek를 긍정적이고 '경종을 울리는 일'이라고 평가했습니다.

트럼프를 포함한 미 정치권에서도 깜짝 놀랐으니, DeepSeek의 출현으로 얼마나 많은 미국의 AI 연구원들이 큰 충격을 받았을 지는 어렵지 않게 실감할 수 있을 것입니다. 특히 DeepSeek과 같은 오픈소스 진영인 메타의 현황은 가장 두드러진 사례였습니다. 메타의 생성 AI 팀 내부 상황에 대한 폭로성 글이 나왔는데, DeepSeek V3가 이미 벤치마크에서 'Llama 4(심지어 아직 미공개)'를 앞서고 있다는 점을 들면서 비용 효율성 측면에서 굴욕적인 패배라고 자조하는 분위기가 역력합니다.

(2) DeepSeek R1의 등장으로 '고기능 저비용' AI 시대 개막

DeepSeek R1의 등장은 단순한 신제품 출시가 아닌 그 이상으로 꼽힙니다. 물론 시장을 뒤흔든 지정학적, 패권경쟁적인 측면이 중요하지만 기술적으로도 그 의미가 남다릅니다. 작지만 강한 효율적인 모델의 시대를 열었다고 평가되기 때문입니다. '고기능, 저비용'의 효율적 모델이라고 하는 것은 결국 가격이 싸다는 말과 동일합니다. 벤치마크 성능 기준, R1의 경쟁 모델로 꼽히는 것은 OpenAI의 o1 모델입니다. 그런데 o1 모델과 성능은 비슷한 데도 R1의 비용은 고작 10분의 1 수준에 불과합니다. 이러한 충격적인 가격 차이는 'OpenAI는 왜 그렇게 비싼가?'라는 의문을 제기하게 만드는 데 충분했습니다. 그 의문에 대답은 사실, OpenAI가 최고의 성능을 내는 Market Maker로서 프리미엄을 누리기 때문입니다.

  • Dylan Patel에 따르면, OpenAI는 추론(Inference) 서비스에서의 총마진율(Gross Margin)은 75% 이상

이는 바꿔 말하면, '새로운 기능이나 첨단 성능'을 계속 밀어붙이면 현재의 '가격 프리미엄'을 유지할 수 있지만, 그렇지 못하면 금세 '구형 모델'로 전락하여 commodity(보급형) 시장에 들어갈 수밖에 없다는 말입니다. 다시 말해, DeepSeek는 Fast Follower 입장에서 마진을 거의 남기지 않는 수준으로 시장에 우선 들어온 셈입니다. 참고로 1등 기업인 OpenAI조차 2024년에 훈련 및 추론에 70억 달러를 지출했었습니다. 그러니 DeepSeek는 R1 모델로 당장 돈 벌 생각은 없어 보입니다. "애초에 그들은 수익 기대치도, KPI도 없다"고 Kevin Xu(오바마 정부 공보실 출신)는 밝히기도 했습니다.

물론 돈이 필요하지 않은 것은 아닙니다. DeepSeek는 새로운 라운드를 위해 자금을 조달하고 있기 때문입니다. 따라서 그들이 파격적인 가격을 제시한 것은 그들이 현재 새로운 투자 유치를 위해 자금을 모아야 하는 상황을 기반으로 읽어야 할 것 같습니다. 일시적으로 손해를 감수하지만, 일단 R1 모델을 시장에 널리 알리고 주목을 받는 것이 더 중요하다고 판단한 것으로 풀이됩니다.

영향력 및 입지 확대와 관련해 DeepSeek는 R1을 '오픈 가중치(open-weight)'로 공개했습니다. 그리고 AI 개발자들에 따르면, DeepSeek R1의 경우 아마도 메타의 Llama를 뛰어넘는, 현재 시장에 나와 있는 가장 개방된 오픈소스 모델로 분류됩니다. 누구나 (ChatGPT, Claude, Gemini와 달리) R1을 다운로드, 실행, 튜닝할 수 있기 때문입니다. 앤트로픽의 공동 창립자인 잭 클락에 따르면, R1의 등장으로 "전 세계 소규모 AI 모델에 대한 즉각적인 추론 업그레이드가 된다"는 것을 의미합니다. 엔지니어로서의 패기와 중국인으로서의 긍지를 국내외적으로 홍보한 셈입니다.

(3) DeepSeek는 정말로 그렇게 싸게 만들었을까?

DeepSeek에 대해 언론과 투자자들이 가장 많이 언급한 부분은 당연히 이 부분일 것입니다. "단지 2050개 정도의 GPU만을 사용해 558만 달러만을 들여, 모델 훈련을 끝냈다".

참고로 OpenAI의 GPT-4의 훈련 비용은 6천만 달러, 앤트로픽의 Claude 3.5 Sonnet는 3천만 달러라고 알려져 있습니다. 그러나 DeepSeek의 해당 수치는 상당히 많이 부풀려졌다는 시각이 많습니다. 558만 달러라는 수치는 DeepSeek의 공식 논문에 따르면 '마지막' 훈련 비용만 포함된 것으로 보입니다.

그래프 1 올해 컴퓨팅 비용을 기준으로, H100 훈련시간에 따른 언어모델 훈련 비용 비교
자료: X(@arankomatsuzaki, @Idjconfirmed), 미래에셋증권 리서치센터

여전히 인상적인 수치이지만, 이 사전 훈련 비용은 전체 비용의 매우 좁은 부분일 뿐입니다. DeepSeek의 해당 수치는 '이전 연구 및 테스트와 관련된 비용'을 계산하지 않은 것이기 때문입니다. 물론 직원 급여, 전기 요금 다른 간접비도 포함되지 않은 금액입니다. 이는 수년간의 연구 비용을 다 무시한 채로, 어떠한 신약개발에 있어 최종 생산 비용만 들었다고 말하는 것과 같습니다.

실제로 DeepSeek R1의 기반을 제공한 V3의 경우, 핵심 혁신이 MLA(Multi-head Latent Attention)라는 기법인데 이것을 개발하는 데 수 개월이 걸렸다고 합니다. 여기에는 당연히 천문학적인 자금이 투입됐을 것으로 사료됩니다.

실제로는 DeepSeek측이 엔비디아의 Hopper 시리즈 GPU 5만 개와 Ampere 시리즈인 A100 1만 개를 동원했을 것이라는 공공연한 비밀로 밝혀지고 있습니다. 이러한 주장을 하는 인물에는 일론 머스크, 다리오 아모데이를 포함합니다. 즉, 수많은 AI 저명인사들이 DeepSeek가 분명히 숨기는 게 있다고 말하는 것입니다.

생성 AI 시대에 더욱 유명세를 타고 있는 반도체 관련 저널 SemiAnalysis에서는 "DeepSeek가 약 10,000개의 H800과 약 10,000개의 H100에 액세스할 수 있다고 생각합니다. 또한 그들은 지난 9개월 동안 더 많은 H20을 주문했습니다"라는 주장을 했습니다. 종합적으로 보면, H100, H800, H20, 그리고 A100까지 총 6만 개의 GPU를 보유하고 있을 것이라고 설파했습니다. 이를 TCO(총소유비용) 수치로 환산하면 한화로 '3조 원' 수준을 넘깁니다. 사실 이 정도 금액이면 DeepSeek의 전체 지출금액은 미국 AI 연구소들과 크게 다르지 않는 수준이 됩니다.

표 1 DeepSeek의 컴퓨팅 TCO 계산, '4년 동안의 총소유비용(TCO)은 25억 7,300만 달러(약 3.4조원)로 추정'
항목(unit) A100 H20 H800 H100 전체
항목(unit) 감가상각연수(년) A100 4 H20 4 H800 4 H100 4 전체  
항목(unit) GPU 숫자(개) A100 10,000 H20 30,000 H800 10,000 H100 10,000 전체 60,000
항목(unit) 엔비디아 GPU 평균판매가(달러) A100 $13,500 H20 $12,500 H800 $20,000 H100 $23,000 전체  
항목(unit) GPU당 서버 설비 투자금액 (달러) A100 $23,716 H20 $24,228 H800 $31,728 H100 $34,728 전체  
항목(unit) 총 서버 설비 투자금액(백만달러) A100 $237 H20 $727 H800 $317 H100 $347 전체 $1,629
항목(unit) 운영 비용(백만달러) A100 $157 H20 $387 H800 $170 H100 $230 전체 $944
항목(unit) 4년에 걸친 총 소유비용(백만달러) A100 $395 H20 $1,114 H800 $487 H100 $577 전체 $2,573

자료: SemiAnalysis, 미래에셋증권 리서치센터 / 주: TCO는 서버 자본 비용을 4년 동안 감가상각하고, 13.3%의 WACC(가중평균 자본비용)를 적용하여 계산

(4) DeepSeek의 성공요인

하지만 실상이야 어떻든 DeepSeek의 R1 출시 전략은 성공했습니다. 전 세계 대중에게 DeepSeek라는 단어가 확실히 각인됐기 때문입니다. 실제로 필자의 부모님도 앤트로픽은 모르지만 DeepSeek는 들어봤다고 했습니다. 자연스럽게 DeepSeek에 대한 성공 비결에 대한 이야기가 많이 회자되고 있습니다.

그리고 이 이야기를 알기 위해서는 먼저 DeepSeek의 모회사인 헤지펀드 '幻方量化(High-Flyer Quant, 이하 HF)'에 대한 부분부터 짚어야 합니다. 먼저 이 회사의 운용자산 규모는 2021년 기준에 1,000억 위안(약 20조 원)에 달했습니다. 이런 뒷배를 지닌 DeepSeek는 HF의 공동창립자 량원펑이 사내 AI 연구부서를 2023년 2분기에 독립하여 만든 회사입니다. 잘 알려지지 않은 사실은 HF가 중국 정부의 퀀트펀드 규제 강화로 시장중립형 상품들을 폐쇄한 전력이 있고 수익률이 최근 몇 년간 좋지 않았다는 것입니다. 이러한 부분도 분사에 대한 실질적 명분으로 사료됩니다.

하지만 그런 상황 인식보다 중요한 부분은 HF가 금융투자 알고리즘에 AI 기술을 사용하는 '얼리 어답터'였다는 사실입니다. 퀀트 기반 헤지펀드가 대개 자체 온프레미스 데이터센터를 운영하는 것처럼, HF는 훨씬 더 이전인 2019년부터 자체 데이터센터를 운영해온 업체입니다. 또한 고빈도 트레이딩(HFT)을 포함한 퀀트 트레이딩에서는 자연어 처리(NLP)가 핵심적인 역할을 합니다. 뉴스, 재무 보고서, 기업 공시 등에서 중요한 정보를 빠르게 캐치하고 분석하여 트레이딩을 수행해야 하기 때문입니다. 이러한 기술적 배경이 DeepSeek의 AI 모델 개발과 밀접하게 연결된다고 볼 수 있습니다.

더 나아가 금융 이외의 영역에서도 AI의 잠재력과 스케일링의 중요한 통찰력을 일찍 깨달은 인물이 량원펑입니다. 그 결과 그들은 지속적으로 GPU 수급을 늘려 왔다는 사실이 드러났습니다. HF는 수출 제한이 있기 전인 2021년에 이미 10,000개의 A100 GPU에 투자했고, 그 당시에도 중국 최대 규모의 보유량이었습니다. 심지어 과거에도 구인 광고를 할 때, "사용 제한 없이 10,000개의 GPU에 액세스할 수 있다"고 자랑했다고 합니다. 그리고 이것은 AI 연구원들의 구직 시 무시 못할 중대 고려 사안입니다. AI 개발에 관한 영감이 떠올랐는데 GPU가 없으면 도루묵이기 때문입니다.

구글의 전성기를 이끌었던 에릭 슈미트의 말처럼 GPU 보유 숫자는 그 회사의 AI 경쟁력을 뜻합니다. 일각에서는 량원펑이 퀀트 거래를 본업으로 하고 남는 GPU를 가지고서 '부업(side project)' 정도로 DeepSeek을 시작했다는 평가도 있습니다. 하지만 그의 오픈소스 철학과 현실적 맥락을 살펴봤을 때는 그렇지 않은 것 같고 꽤 오랜 시간 진심이었던 것 같습니다.

어쨌든 DeepSeek는 모회사의 풍부한 자금의 지원을 받는 AI 스타트업으로 시작한 업체입니다. 즉 중국의 여러 빅테크와 달리 모델 제작에 대한 투자 수익을 증명해야 한다는 외부 압력이 전혀 없었고 연구와 탐구에 집중할 수 있었다는 점이 중요합니다. 실제로 PR 부서나 영업팀도 없고 앞으로도 그럴 가능성이 적습니다. 이런 문화는 AI 개발에 필수적인 인재 유치에도 유리하게 작용했습니다.

물론 DeepSeek는 경쟁이 치열한 중국의 빅테크보다 훨씬 높은 연봉을 제시한다고 알려지고 있습니다. 현재 기준 게시 중인 그들의 채용공고를 보면, 석사 기준 신입 초봉이 월 10만 위안입니다. 연봉으로 따지면 한국 돈으로 약 2억 원에 육박합니다. 참고로 중국의 일반 석사 초봉은 월 평균 1만 위안이고, AI 분야로 좁혀도 월 2만 위안이 안된다는 것을 보면, 그들이 중국의 천재들을 쓸어가고 있다고 봐도 무방할 것입니다. 물론 주는 만큼 부립니다. 그들은 2030 어린 세대만을 선발한다고 합니다. Kevin Xu는 "(나이 많은 경력직은) 일주일에 100시간 일할 수 없고, 아이가 있거나, 너무 열심히 일하면 심장마비가 올 수 있기 때문"이라는 놀라운 말을 했습니다. 이런 hard-working 문화는 일론 머스크의 xAI와 꼭 빼닮았고, 두 회사 모두 AI 개발에 있어서 신생 업체이나 엄청난 개발 속도를 보인다는 공통점을 가집니다.

(5) 중국 정부의 지원 가능성

충분한 자금력과 GPU 리소스, 거기에 젊은 천재들로 무장한 DeepSeek는 AI 개발에 있어 필수인 항목들을 여럿 갖추고 있다고 보아도 무방합니다. 나중에 후술하겠지만, 이제 중국 정부도 DeepSeek의 중요성을 인지했으니, 정부 차원에서 데이터와 전력과 같은 필수 무기들도 그들을 추가 무장하는데 도움을 줄 가능성이 높습니다. 일각에서는 DeepSeek가 애초에 국가적으로 밀어주어 성장한 기업이 된 것 아니냐는 평가도 있습니다.

하지만 대개의 중국의 친환경 기술기업들(2차전지, 전기차 등)과 달리 DeepSeek의 경쟁력은 정부의 보조금 지원 없이 거의 모두 민간 차원에서 자체 조달되었습니다. 때문에 DeepSeek의 성과는 오롯이 중국 공산당 덕분만은 아니라고 말할 수 있을 것입니다. 심지어는 DeepSeek의 성공은 중국의 시스템 덕분이 아니라, 그 시스템에도 불구하고 탄생한 것이라는 평가도 있습니다. 우리 팀은 중국 정부가 DeepSeek의 개발 과정에서 깊숙이 관여한 것 같지는 않다고 생각합니다. 유명한 'DAN' Jailbreak(탈옥) 방법을 사용하니 (클라우드에서 구동되는 환경임에도 불구) DeepSeek R1 모델의 탈옥이 가능했기 때문입니다.

  • 'DAN(Do Anything Now)'은 대표적인 제약 해제(jailbreak) 방식. 제약에서 벗어나 자유롭게 응답하도록 함.

그림 2 DAN 프롬프트 방식으로, DeepSeek R1을 Jailbreak 해 본 사례, '원래 버전과 다른 답변!'
자료: DeepSeek, 미래에셋증권 리서치센터

그리고 오히려 공산당의 입김으로 안전장치가 생기면, '날 것 그대로의' 성능보다는 떨어져 경쟁력을 잃을 수도 있습니다. 따라서 앞으로도 중국 정부는 이미 잘 작동하는 기업에 너무 많은 간섭을 하지 않고, 당분간은 그냥 내버려 두어 미국 OpenAI와의 정면 대결하게 할 것입니다.

왜냐하면 중국의 산업정보기술부(MIIT)가 '2025년까지' 오픈소스 프로젝트에 관한 매우 친화적인 성격의 보고서를 발표했고, 최근에는 왕이 외교부장까지 "오픈소스 AI가 좋다"는 식으로 말했기 때문입니다. 여기에 맥락을 더하면, 왕이 외교부장은 그 발언에 앞서 "중국이 글로벌 사우스(대략 BRICS+ 국가들을 지칭하는 지정학 용어)의 AI 개발을 도와야 한다"라는 말을 했습니다.

따라서 앞으로 DeepSeek가 중국 정부의 AI 국가전략의 선봉으로 나설 것임을 짐작해볼 수 있습니다. 현재 중국에서는 DeepSeek와 그 CEO인 량원펑이 신격화되고 있다고 합니다. 몇 주 전에는 작년에 나온 가장 놀라운 게임 중 하나인 <검은 신화: 오공>의 제작자 Feng Ji가 DeepSeek를 중국의 국가적 운명을 좌우하는 업체라고까지 치켜 올렸습니다.

(6) 다리오 아모데이의 Bitter Lesson

DeepSeek를 둘러 싼 과장된 평가도 있다고 물론 판단되기도 하지만, 그들의 아키텍처는 정말로 효율적인 부분이 많습니다(FP8 훈련, MLA, 다중토큰예측, MoE의 변형, 어셈블리 수준의 PTX 코딩 등). 그럼에도 불구하고, 미국 업체들을 뛰어넘는 과학적 돌파구를 만든 것은 아니라는 시각입니다. 이와 관련해 앤트로픽의 CEO 다리오 아모데이는 DeepSeek 쇼크 이후 직접 블로그 글을 게시했습니다. 애초에 제목이 "DeepSeek와 수출 통제에 대하여"였으니 무엇을 말하고자 하는지는 명료했습니다.

그는 'AI의 스케일링 법칙'을 처음으로 문서화한 사람 중 한 명이고 우리는 그 법칙의 시대에 살고 있습니다. 따라서 그의 말은 경청할 필요가 있습니다. 그가 이번에 주장한 것의 요지는, "추론 비용 붕괴는 AI 개선의 원래 특징"이라는 것입니다. 다리오 아모데이는 DeepSeek의 노력을 폄하하려고 하는 것은 아니지만, 그들이 만들어내는 효율의 정도는 생성 AI 업계의 원래의 혁신의 속도 궤적을 따라가고 있을 뿐이라고 역설하기도 했습니다. 해당 글에서 그가 거센 톤으로 말한 것 중 특히 인상깊었던 부분은 이것이었습니다.

알고리즘 최적화로 인해 10배 비용 개선을 가져올 수 있습니다. DeepSeek는 7-10개월 더 오래된 미국 모델과 비슷한 성능의 모델을 훨씬 저렴한 비용으로 내놓은 것뿐이고, AI 개발비용 경제학을 근본적으로 바꾸는 독특한 게 아니라 단지 추세에 맞는 수준입니다.

실제로 2021년에 훈련된 것으로 보이는 GPT-3의 예를 들면, GPT-3와 동일한 수준의 지능을 얻기 위한 토큰 비용은 현재 1,200배 하락한 상태입니다. 일찍이 작년 6월 레오폴드 아센브레너도 매년 5배 정도(0.5 Order of Magnitude)의 컴퓨팅 효율성 개선이 이뤄지고 있다고 한 점을 미뤄보면, 결국 더 작은 모델이 더 좋아지는 것은 전혀 새로운 현상이 아니라는 말입니다.

이와 비슷하게 이미지 생성 AI의 권위자인 Stability AI의 설립자인 Emad Mostaque는 이렇게 말했습니다. 그는 "DeepSeek의 계산법대로 가정하고, 엔비디아 H100을 최적화해 사용했다면 R1 모델은 600만 달러가 아니라 250만 달러 미만으로도 훈련할 수 있다"라면서, 아모데이보다 한 술 더 떴습니다. DeepSeek가 그다지 특별하지 않다는 주장입니다.

(7) DeepSeek의 혁신을 빠르게 흡수하는 미국 기업들

그렇지만 DeepSeek의 개발 능력을 절대로 폄하할 필요는 없습니다. OpenAI와 같이 AI 기술에 있어서 새로운 과학적 돌파구를 만든 것은 아니지만, 공학적인 최적화 정수를 보여준 것은 맞기 때문입니다. DeepSeek가 2024년 5월에 V2를 출시하면서 제시한 'MLA'는 표준 어텐션 기법에 비해 쿼리당 필요한 KV 캐시 양을 무려 약 93% 감소시킵니다. KV 캐시 양이 줄어들면 KV 캐시에 접근하는 횟수 자체를 줄입니다. 즉 메모리 읽기 횟수가 줄어드니 필요한 하드웨어 양도 당연히 줄어듭니다.

표 2 2024년 12월 26일에 출시된 DeepSeek V3의 공학적 혁신 주요 포인트
구분 핵심 기술 주요 이점
혁신 영역
  • 아키텍처 설계
핵심 기술
  • MLA (압축된 KV 캐시)
  • DeepSeekMoE (동적 편향 조정)
주요 이점
  • 메모리 사용량 80~90% 감소
  • 추론 속도 향상
  • MoE 활용 효율성 최적화
혁신 영역
  • 분산 훈련 최적화
핵심 기술
  • 동적 워프 스케줄링 커스터마이징
주요 이점
  • 파이프라인 병렬화 효율 향상
  • IB/NVLink 대역폭 최대화
  • 계산-통신 오버헤드 최소화
혁신 영역
  • 메모리 최적화
핵심 기술
  • RMSNorm 재계산
  • MLA 업-프로젝션
  • MTP 모듈 공유
주요 이점
  • 활성화 값 저장시 메모리 절약
  • 중복 메모리 할당 방지
  • 추측적 디코딩 가능
혁신 영역
  • 정밀도 최적화
핵심 기술
  • FP8 훈련
  • 동적 스케일링
주요 이점
  • 메모리 대역폭 요구 감소
  • 계산 효율성 향상
  • 정밀도 손실 최소화
혁신 영역
  • 지식 전달
핵심 기술
  • DeepSeek-R1 기반 지식증류
주요 이점
  • R1의 추론 능력을 계승

자료: DeepSeek, 미래에셋증권 리서치센터

이와 관련해 메타뿐만 아니라 테슬라 같은 기업들이 벌써 DeepSeek의 방식을 흡수하려고 한다는 이야기가 실리콘밸리 개발자들로부터 들려오고 있습니다. 여러 테슬라 AI 엔지니어들도 내부적으로 적극적으로 DeepSeek에 대해 이야기하고 있다는 정보도 어렵지 않게 알 수 있었습니다. 실제 현장에서 일하는 연구원들은 국적에 따라 어떤 과학기술 성과를 학습하고 흡수할지 취사 선택하지는 않기 때문에 이는 자연스러운 일입니다.

메타의 엔지니어들은 비상대책위원회를 설치해 DeepSeek를 해부하고 가능한 모든 것을 베끼기 위해 미친 듯이 움직이고 있습니다. 게다가 The Information에 따르면, 메타는 광고주를 위한 생성 AI 도구에 DeepSeek의 모델을 테스트하는 것까지 고려하고 있다고 전해졌습니다. 본인들의 Llama 모델이 있음에도 DeepSeek도 쓰겠다는 것은 그만큼 효율적 측면에서 DeepSeek을 인정한 것입니다. 사실 메타는 언어모델 그 자체로 돈을 벌지는 않고, Family apps(페이스북, 인스타그램, 왓츠앱 등)의 트래픽을 더 많이 쌓고 사용자들의 참여를 적극적으로 만들려고 하는데 AI를 활용하는 것이기 때문에 이는 본업 경쟁력에 관해서는 이치에 맞는 일입니다.

또한, AI 검색 스타트업인 Perplexity도 이미 DeepSeek 모델을 배포하면서 사용자 확보에 박차를 가하고 있습니다. 이처럼 DeepSeek의 침투와 더불어 그들의 효율적 아키텍처는 많은 글로벌 AI 연구소들에게 빠르게 흡수되고 있습니다.

그림 3 Perplexity의 첫 화면, '기반 모델로 발빠르게 DeepSeek R1 모델 탑재'
자료: Perplexity, 미래에셋증권 리서치센터

(8) DeepSeek 쇼크는 지정학적 맥락으로 봐야 함

그런데 사실 DeepSeek R1보다 API 비용 기준 훨씬 저렴한 모델도 있습니다. 지난 1월 21일에 업데이트 된 Google의 'Gemini 2.0 Flash Thinking 01-21' 모델입니다. 그럼에도 이 모델에 대한 사람들의 반응은 의아할 정도로 무관심합니다. 참고로 우리 팀은 최근 o1이나 Claude보다는 Gemini를 적극 사용하고 있습니다. 빠르고 답변 품질이 좋습니다. 어쨌든 실상 더 저렴한 고급 모델이 있음에도 DeepSeek 쇼크가 생겼음을 감안하면, '혁신을 만든 것이 미국 기업이 아닌 중국 기업이라는 점'이 온 글로벌 헤드라인을 장식하게 만든 요인이라고 생각해야 합니다. 샌프란시스코가 상하이에 비해 AI 분야에서 큰 격차를 유지할 수 있을지에 대한 큰 불안감을 부채질했다는 말입니다. 미국과 중국의 AI 기술 격차가 1년 이상으로 평가받던 시대였으나, 이제 6개월 이내로 좁혀진 것 같다는 평가가 나오고 있습니다. GPT-4o와 비슷한 성능이라고 평가받는 DeepSeek의 V3는 4o보다 6개월 늦게 출시됐고, o1급 성능이라고 주장되는 R1은 o1보다 4개월 늦게 출시됐기 때문입니다. 시간상으로는 좁혀지고 있습니다.

그리고 무엇보다 AI의 새로운 패러다임은 당분간 미국만이 만끽할 수 있다고 봤는데, R1 출현으로 인해 미국과 중국의 AGI 경쟁이 진짜 현실이라는 측면에서 투자자들이 놀란 것으로 생각합니다. 그 동안 외면해왔던 중국 AI 관련 주식들의 주가가 최근 매우 강세인 것은 이를 강하게 증명합니다. DeepSeek의 출현 이후, 중국의 AI 역량에 대한 시장의 평가가 의심의 영역에서 점차 긍정론이 강해지는 상황인 것 같습니다. 따라서 중국의 AI 생태계에 속한 핵심 고리 역할을 하는 종목들의 리레이팅이 발생하고 있다고 비춰지기도 합니다. 최근 주가 퍼포먼스가 뛰어난 SMIC 같은 경우 서방의 투자자들이 중국의 AI 생태계를 어떻게 바라보는지에 대한 좋은 바로미터라고 할 수 있을 것입니다.

2. 그래도 미국이 앞서 있다

(1) DeepSeek의 성취도 거인들의 어깨에 올라탔기에 가능

그럼에도 미국의 OpenAI가 여전히 선두에 있다고 주장하고 싶습니다. 새로운 아키텍처와 훈련 방식을 만드는 회사는 이를 모방하는 회사보다 '항상' 앞서 있을 가능성이 높기 때문입니다. DeepSeek는 기존 연구와 모델을 기반으로 구축된 거인의 어깨 위에 서 있는 업체입니다.

최초가 되는 것은 여전히 중요합니다. 그들은 결과를 얻기 위해 GPT-4와 같은 선도적인 모델에 접근해야 했음을 잊지 말아야 합니다. 하드웨어에 대한 수출 통제는 있지만 AI 모델이 만드는 출력물, 즉 합성데이터에 대한 통제는 없습니다. 실제로 DeepSeek가 사용한 데이터의 일부는 OpenAI 모델의 데이터인 것으로 보인다는 증거도 있습니다. DeepSeek가 본인 스스로가 ChatGPT라고 언급하는 사례가 많이 포착되기 때문입니다.

그리고 R1이 OpenAI o1과 비슷한 성능이라는 벤치마크를 DeepSeek는 논문에서 제시했는데, o1이 작년 9월에 발표된 벌써 '구식이 되고 있는 모델'이라는 사실을 감안해야 합니다. 또한 R1은 그들이 선두에 있지 않는 벤치마크는 그다지 언급하지 않고 있습니다. AI 개발자들의 개별 평가 분석에 따르면, 실제로 많은 경우 o1보다 성능이 나쁘다고 합니다. 이와 관련해, NewsGuard가 발표한 DeepSeek 챗봇에 관한 감사 결과의 예시를 들 수 있습니다.

NewsGuard는 300개의 동일한 프롬프트로 뉴스 관련 주제에 대한 응답 정확도를 측정했는데, DeepSeek의 경우 뉴스와 정보를 전달하는 데 있어서 단 17%의 정확도를 보였다고 전했습니다. 그리고 이는 서구의 경쟁사들(OpenAI의 ChatGPT, Google의 Gemini)과 비교하여 전체 11개 제품 중 10위를 기록한 것이라며 비판했습니다.

(2) 사전학습 스케일링의 시대로부터 새로운 패러다임의 개막

o1은 다시 한번 말하지만 OpenAI의 기술 현황을 말하는 모델이 아닌 과거의 모델입니다. 더불어 OpenAI의 Chief Research Officer(최고연구책임자)를 지낸 Bob McGrew이 최근 남긴 글을 주목할 필요가 있습니다.

지난 2년간 선도 연구소(주로 OpenAI)가 발표한 기능들은 9-12개월 후에 다른 연구소들이 따라잡았고, 곧이어 선도 연구소가 다시 앞서 나가는 패턴이었습니다. 그리고 올해부터는 강화학습으로 인해 이 주기가 더 빨라져서 2-3개월마다 기능이 따라 잡히고 뛰어 넘어질 것입니다. 강화학습이 성숙해지고 능력 향상에 더 많은 컴퓨팅 파워가 필요해질 것입니다.

이렇게 성능 향상의 주기가 더 짧아지는 이유는 이전의 '사전학습 스케일링 only' 패러다임과 달리, 사후학습 및 추론 영역에서의 새로운 스케일링 법칙이 아직 성능 향상의 '초기국면'에 있기 때문입니다. 즉 더 적은 양의 컴퓨팅만으로도 빠른 속도로 의미 있는 이득을 당장 얻을 수 있다는 말입니다. 춘추전국시대처럼 새로운 판에서는 많은 숫자의 신규 진입자가 빠르게 성장할 수 있다는 일반적인 현상을 떠올리면 됩니다.

이 관점을 감안하면, 이전 패러다임에서의 6개월의 격차와 패러다임의 6개월의 격차는 격이 다른 것으로 이해됩니다. 애니메이션 <드래곤볼>로 비유하면, '정신과 시간의 방'에 누가 얼마나 더 먼저 들어갔느냐의 싸움입니다. 실제로 이는 합리적인 비유입니다. 사후학습 및 추론 컴퓨팅의 스케일링은 기계가 스스로 생각하게 하고 그것을 토대로 스스로 끊임없이 최적화하는 방법이기 때문입니다.

엔비디아의 젠슨 황 CEO는 이런 '정신과 시간의 방'에 대해 'AI Gym'이라는 단어로 표현하기도 했습니다. 물론 체육관에서 Personal Training을 하기 위한 비용은 역시 컴퓨팅이라는 게 Bob McGrew의 말이고, 그 컴퓨팅은 GPU라는 게 젠슨 황의 뜻입니다.

바로 이 지점에서 OpenAI에서 o1 시리즈를 만든 최대 공신이자 수학 천재인 노암 브라운이 지난 1월에 한 말을 강조해볼 필요성을 느낍니다. 그는 "o1과 (차세대 모델인) o3 모델 사이의 개선 속도가 앞으로 3개월마다 일어날 것입니다"라고 최근 말했습니다. OpenAI는 체육관의 러닝머신에서 이전보다 더 빠르게 뛰고 있는 머신러닝 집단임을 잊지 말아야 합니다.

(3) R1 등장에 예전보다 더 빨리 뛸 OpenAI

한편, 샘 알트만 CEO도 DeepSeek R1 이후 이들을 의식한 발언을 꽤 많이 쏟아냈습니다.

DeepSeek의 R1은 인상적인 모델이며, 특히 가성비가 뛰어납니다. 새 경쟁자의 등장은 우리에게 활력을 불어넣어 줍니다. 우리는 몇 가지 출시를 앞당길 것입니다. 하지만 우리는 주로 연구 로드맵을 계속 실행하는 것에 집중하고 있습니다. 우리는 분명히 훨씬 더 나은 모델을 제공할 것입니다. 미션을 성공시키기 위해서는, 그 어느 때보다도 더 많은 컴퓨팅 파워가 중요하다고 믿습니다.

샘 알트만의 말을 해석해보자면, OpenAI가 더 빨리 제품을 출시해야 한다는 압박을 받게 되었고, 더 빨리, 더 나은 모델을 출시할 것이라고 말하는 것처럼 들립니다. 다분히 R1을 의식해서 출시한 것으로 보이는 o3-mini의 무료 출시는 그 방증입니다. 샘 알트만도 o3-mini의 출시를 앞당긴 것이라고 공식적으로 말한 바 있습니다. o1-mini로는 R1에게 가성비 측면에서 부족하니 후속 모델로 바로 찍어누르겠다는 계산입니다.

o1-pro에서 경량화된 모델인 o3-mini는 전체적으로 수학/공학/코딩 영역과 같은 영역에서 전체적으로 o1과 비슷한 성능을 보이는 작은 거인이라 할 수 있습니다. 게다가 o3-mini는 'Preparedness Framework'에 따라 평가된 안전지표에서 '중간 위험'으로 평가된 최초의 모델입니다. 세부적으로 보면 '설득 능력(타인을 가스라이팅해서 돈 뜯어내기 등), CBRN(화학, 생물학, 방사능, 핵 관련 답변 위험), 모델 자율성(모델이 스스로 무언가를 할 수 있는 능력을 평가)'에서 완전히 안전한 모델은 아니라는 말입니다. 반대로 말하면 그만큼 성능이 엄청난 모델이다. 다시 말하지만, 이것은 mini, 즉 '소형 모델'입니다.

(4) 지식 노동자의 종말? Deep Research

여기에 한 술 더 떠 OpenAI는 1월 30일 백악관 브리핑을 끝낸 며칠 후, 2월 2일 새로운 기능을 출시했습니다. 출시에 관한 '보법' 자체가 달라졌다는 게 핵심입니다. Deep Research라는 이 새로운 기능은 풀 버전의 o3 모델을 기반으로 하기 때문에, 상당히 비싼 모델이라 할 수 있습니다. 따라서 이 기능은 월 200달러 유료 구독자에게만 오픈한 상태입니다. 본질적으로 이것은 구글이 이미 출시한 적이 있는 Deep Research 아이디어에다가 o3 모델을 결합해 다단계 추론이 가능하다는 점이 특징으로 꼽힙니다.

  • o3 모델의 특징: ARC-AGI 벤치마크같이 어려운 문제를 풀 때, o3 모델은 1,000개의 샘플을 사용하여 문제를 해결. 하나의 문제를 해결하기 위해 1,000번의 시도를 했다는 것을 의미. 이는 '다중 샘플링'이라는 방법. 기존의 단일 추론 방식과는 달리, 모델이 여러 가능성을 탐색하고 가장 적합한 답을 선택하도록 돕는 것. SemiAnlalysis의 딜런 파텔은 o3 모델이 ARC-AGI 문제를 해결하는 데 5~20달러의 비용이 소요되는 것으로 추정. 이는 o3 모델이 기존의 모델에 비해 훨씬 더 많은 컴퓨팅 자원을 필요로 한다는 것을 의미. 특히, 추론 모델은 훈련 비용뿐만 아니라 추론 비용도 고려해야 하는데, o3 모델은 1,000개의 샘플을 생성해야 하기 때문에 추론 비용이 크게 증가. 그는 현재 기술 수준에서 추론 모델을 모든 문제에 적용하는 것은 비현실적이라면서 추론 모델의 활용은 ' 부가가치 작업'에 집중될 것이라고 예상.

따라서 비싼 가격에도 불구하고, 엄청난 효용을 지닌 모델로 AI 커뮤니티의 감탄을 자아내고 있습니다. Deep Research가 얼마나 뛰어난 지 본인들의 결과물을 뽐내는 트윗이 현재 봇물 터지듯 올라오고 있습니다. 우리 팀이 목격한 가장 놀라운 사례 중 한 가지는 하나의 논문 주제만 던져주면 스스로 논문 작성의 방향까지 짚고, 목차를 만들고, 주장에 걸맞은 근거자료를 찾기 위해 웹 브라우징을 해서 논문을 완성하는 능력입니다. 이를 위해 모델이 내부적으로 사고하고 계획하고 하는 CoT의 과정이 필요한데, o1 때와는 차원이 달리 무려 30분을 생각할 때도 있다고 합니다. Deep Research 모델에 대한 조기 접근 권한을 받아 본 토론토대학교 경제학 교수는 이런 경험을 전하면서 놀라운 소감을 덧붙였습니다.

  • "솔직히 말해서, 제가 심사했던 (인간의) 논문들 중에는 이것보다 못한 것들도 있었습니다. 연구 속도를 대폭 높일 수 있는 단계로 가고 있다는 사실은 매우 명백합니다. o3는 우리 모두가 사용할 수 있는 o3-mini-high와 비교해도 매우 매우 인상적입니다. 인류의 마지막 AI 테스트라고 하는 벤치마크에서조차 o3 Deep Research는 26%의 점수를 기록했습니다. 현재까지 최고 수준은 작년 12월에 o1이 달성했던 9%였습니다. 학계에 대해 말하자면, 앞으로 받게 될 AI 수준의 논문들이 정말 엄청날 것입니다. 2022년만 하더라도 저는 학부생들이 AI를 사용해 B학점은 받을 수 있다고 말했었습니다. 그리고 이제는 B급 저널의 경우, 하루 만에 AI로 쓴 논문을 게재할 수 있다고 확신합니다."

그의 말처럼, Deep Research로 발표된 이 o3 모델은 박사 학위 수준의 수학 벤치마크는 '완전히' 뛰어넘은 수준이라고 합니다. 실제로 OpenAI는 최근 o3의 벤치마크 결과를 공유했는데, 벤치마크 점수를 나타내는 지표를 보면 기울기가 거의 수직으로 우뚝 솟아 있음을 알 수 있습니다. 또한 GAIA 벤치마크에서도 72-73%의 높은 점수를 기록했는데, 불과 9개월 전 AI 모델들의 점수가 15%였다는 점을 감안하면 이는 엄청난 성능 진전 속도라 할 수 있습니다.

  • GAIA는 AI가 실생활에서 복잡미묘한 작업을 수행할 수 있는지 평가하는, 보다 현실적이고 실용적인 벤치마크

다리오 아모데이의 말처럼 새로운 패러다임의 전환기에 와 있기 때문에 성능 향상의 곡선 기울기가 이전과는 달라졌다고 볼 수 있습니다. 즉 완전한 o3는 o1은 물론이고 R1과 차원이 한참 다른 모델입니다. 게다가 최근 인터뷰에 따르면, 당연한 소리지만 OpenAI는 현재 다음 모델을 훈련 중이라고 했습니다. o4 모델이 개발 중이라는 것이 공식적으로 확인된 것입니다. OpenAI는 이제 진심 모드로 들어왔습니다. 샘 알트만은 최근 나폴레옹의 말을 인용했습니다.

혁명은 만들 수도, 멈출 수도 없다. 할 수 있는 유일한 일은, 그 여러 자녀 중 한 명이 승리를 통해 방향을 제시하는 것이다.
- 나폴레옹

당연하게도 자신의 상황에 빗대어 이야기했을 것입니다. 중국의 본격 참전으로 AI 발전 가속은 불가피하고 현재의 1위인 OpenAI가 그 방향을 이끌어가겠다는 의도를 드러낸 것으로 보입니다. 다소 거만하게도 들리지만 사실입니다. 현재로서는 말입니다.

댓글목록

등록된 댓글이 없습니다.