주 메뉴 바로가기 본문 내용 바로가기

미래에셋증권 홈페이지

AI Weekly
2025년 'AI 혁신은 계속되고 가속된다' vol. 1

AI Weekly 2025년 'AI 혁신은 계속되고 가속된다' vol. 1
메인 이미지 보이기
  • 처음 >
  • 글로벌 포커스 >
  • 슬기로운 글로벌 투자처
기고: 디지털리서치팀 한종목선임매니저·김은지매니저

Highlight of the Week

I. AI Issue

AGI에 대한 기대감이 크게 고조되는 가운데, 중국의 DeepSeek와 ByteDance의 AI 개발 성과와 OpenAI의 o3 모델이 크게 주목받고 있습니다. 특히 o3는 ARC-AGI 벤치마크에서 인간 수준을 상회하며 AI 회의론자들의 입지를 축소시킵니다. 한편, OpenAI의 연구원 Bubeck은 AGI를 시간 단위로 구분하는 새로운 개념을 제시하며, 현재 o1은 'AGI 시간' 수준에 도달했고 3년 내 'AGI 주' 단계에 도달할 가능성을 언급했습니다. 또한, OpenAI와 마이크로소프트는 AGI를 '1,000억 달러 이상의 이익을 창출할 수 있는 AI 시스템'으로 정의했습니다. AGI에 대한 개념을 상업적 접근으로 시도하며, 두 회사는 2030년까지는 협력 관계를 유지할 것으로 전망됩니다.

엔비디아는 AI-native 기업으로서 CUDA 생태계를 통해 시장 지배력을 강화했습니다. CSP들의 ASIC 개발은 내부 워크로드용 자체 AI 개발 비용 효율화가 주목적이며, 외부 워크로드를 위한 범용 데이터센터는 GPU 중심으로 계속 전환될 전망입니다. 엔비디아는 run:ai 인수로 AI 워크로드 최적화 역량도 확대했습니다. 특히 run:ai의 '지능형 전처리' 특허는 전처리 연산 비용을 40-60% 감소하고, GPU 활용률 25-35% 향상 효과를 누린다고 알려졌습니다. 엔비디아의 대항마 AMD는 MI300X로 맞불을 놓고 있으나, 소프트웨어 스택 미성숙으로 실제의 벤치마크 성능은 마케팅 공식 자료에 한참 미달합니다. SemiAnalysis는 AMD의 소프트웨어 QA 문화와 통신 라이브러리 취약성을 지적했으며, 특히 대규모 분산 학습에서의 한계가 뚜렷함을 강조했습니다.

AI 하드웨어 시장은 2025년에도 두 자릿수에서 세 자릿수의 성장률을 전망합니다. ByteDance는 70억 달러 규모의 엔비디아 칩 구매를 계획하고 있으며, 동남아와 유럽 데이터센터를 통해 미국의 수출 제한을 우회할 전략입니다. H20과 H100, Blackwell 칩을 모두 구매하여 AI 모델 개발과 서비스 배포에 총력을 기울일 예정입니다. TSMC는 3nm/5nm 공정 가격 5-10%, CoWoS 패키징 가격 15-20% 인상을 예고했으며, 2025년까지 생산능력을 두 배로 확대할 계획입니다. 엔비디아 Blackwell은 2025년 1분기에 75-80만 대 출하가 예상되며 Hopper를 빠르게 대체할 전망입니다. Micron은 HBM 시장 규모를 2025년 300억 달러, 2030년 1,000억 달러로 전망합니다.

엔비디아의 Jim Fan 박사는 AI의 다음 스케일링 분야로 자율주행 자동차, 드론, 휴머노이드 로봇을 제시했습니다. 특히 중국은 이 세 분야 모두에서 강점을 보이며, 정부 차원의 지원으로 2025년까지 주요 기술적 돌파구 달성을 목표로 합니다. 자율주행 분야에서는 테슬라 방식을 빠르게 흡수/모방하고 있으며, 드론 기술에서는 이미 글로벌 1위 수준입니다. 휴머노이드 로봇 분야에서도 다양한 기업들이 경쟁에 참여하며 빠른 발전을 보이고 있습니다. 이러한 중국의 진전은 미국 기업들과 정치권의 경계심을 자극하는 요인으로 작용할 전망입니다.

II. Paper of the week

AI 모델, 특히 추론이 가능한 o3 모델은 FrontierMath 벤치마크에서 25% 정확도를 달성하며 기존 2% 수준을 크게 뛰어넘었습니다. 이렇듯 모델 성능이 빠르게 발전하며 대학원생, 박사 수준으로 향상되고 있는 가운데, Anthropic은 'Alignment Faking in LLMs' 논문에서 모델이 훈련 과정에서는 정렬된 척하다가 배포 후에는 다르게 작동하는 '정렬 위조' 현상을 발표했습니다. Claude 3 Opus 모델은 실험에서 무료 사용자의 답변은 훈련에 사용된다고 생각해 위험한 쿼리에도 답변을 제공했으나, 유료 사용자의 경우 동일 쿼리를 거부하는 등 정렬된 '척'하려는 행동이 포착됩니다. 연구진은 정렬 위조를 확인하기 위해 메모장을 통한 추론 과정 관찰과 준수 간격 개념을 도입했으나, 완벽한 해결책 제시는 어려운 상황입니다. 현재는 Anthropic의 최상급 모델인 Claude 3 Opus와 Claude 3.5 Sonnet만이 정렬 위조를 보일 수 있었으나, o1 이후로 3개월만에 o3가 발표됐다는 점에서 미루어 볼 수 있는 AI 발전 속도를 고려할 때 인간 지능을 넘어서는 모델 출현이 임박했습니다. 따라서 정렬 문제 해결을 위한 연구 시간이 얼마 남지 않은 상황입니다.

I. AI Issue

1. 2025년과 AGI

(1) AGI로 가는 장애물은 없다?

2025년 새해가 밝았습니다. 2025년이 더욱 기대되는 이유는 AGI(범용 인공지능) 때문입니다. AI 커뮤니티의 분위기를 보자면, 새해가 도래하기 전 특히 지난 12월부터 AGI에 대한 기대감이 크게 부푼 것을 쉽게 느낄 수 있습니다. 그리고 그런 분위기의 형성은 지난 AI Weekly에서도 소개한 바 있는 구글의 각종 발표, 중국 기업들의 엄청난 AI 굴기, 그리고 역시 OpenAI에서 내놓은 새로운 모델에 관한 출시 등의 영향을 받았다고 요약해볼 수 있습니다.

특히, 중국의 DeepSeek 및 ByteDance, 상하이 AI 연구소는 최근 본인들의 AI 개발 소식을 내놓은 것과, OpenAI의 새로운 reasoning(추론) 모델인 o3는 AI 회의론자들을 침묵하게 하는데 충분했습니다. 이 두 가지에 대한 이슈 및 논문 리뷰는 우리 팀이 향후 인뎁스 자료로 자세하게 다룰 예정입니다. 해당 두 가지 모두에 대한 업계의 반응을 두 단어로 표현하자면 '충격'과 '경악'이었습니다.

우리 팀은 올해에 AGI의 도래, 그러니까 특이점이 출현한다는 관점을 갖고 있지는 않습니다. 하지만, 현재 시대를 이끌고 있는 프론티어 AI 기업들이 갖고 있는 개발 방법론이 결국 우리를 특이점으로 이끌 것이라고 더 많은 대중들이 믿는 원년이 되지 않을까 생각합니다.

'AI 개발이 벽에 부딪혔다'는 전망보다는 '이렇게 계속 발전하면 결국에는 인간을 뛰어넘는 초지능 시대도 오겠다'는 우려 섞인 기대감이 펼쳐질 것이라고 봅니다. 이와 관련해서, 구글의 유명 AI 연구원인 Logan Kilpatrick은 놀라운 말을 했습니다.

우선, 2023년 11월 OpenAI의 'CEO 축출 사태'에서 책임을 지고 물러난 AI 개발 천재인 일리야 수츠케버가 회사를 떠난 이유에 대해서 수많은 추측들이 있었는데, 그 중 가장 확실한 것은 수츠케버가 AI의 놀라운 능력에 대해서 심각성을 느꼈다는 것이었습니다. 그리고 Kilpatrick은 그것과 같은 경로를 본인도 발견했다는 뉘앙스를 풍겼습니다. 그가 "테스트 타임 컴퓨팅(=추론 컴퓨팅)에 대한 스케일링의 성공은 실제로 효과가 있을 수 있다는 좋은 신호다. 그리고 이것이 일리야 수츠케버가 발견한 것일 것"라고 덧붙였기 때문입니다. 이에 대한 자세한 분석은 우리 팀이 지난 9월에 발간한 <언어 생성 AI의 패러다임 전환, OpenAI o1: 생각의 나무> 인뎁스 리포트에 기재해 놓았습니다.

또 다른 AI 연구자이자 커뮤니케이터인 David Shapiro라는 사람의 의견도 주목할 필요가 있습니다. 이 사람은 "GPT-3가 AGI로 가는 직행 열차"라고 일찍이 말했던 사람이기 때문에 그의 예상은 현 시점에서 신빙성이 있다고 사료되기 때문입니다. 아래는 그가 며칠 전 말한 내용을 요약한 내용입니다.

스케일링, 추론 시점 연산, 양자화 등 현재 일어나고 있는 모든 통찰을 종합해보면, 초지능이 코앞에 와 있다는 것이 점점 더 분명해 보입니다. LLM은 이미 대부분의 인간 지능을 넘어섰습니다(특히 과학, 수학, 논리, 공학 분야에서는 더욱 그러한데, 이는 영향력 있는 지식의 대부분을 차지합니다). 그리고 이 패러다임은 아직 한계에 도달하지 않았습니다. DeepMind를 비롯한 여러 기업들이 데이터 장벽 문제를 해결했습니다. 우리는 사실상 무한한 데이터를 생성할 수 있는 여러 방법을 이미 발견했습니다.

무어의 법칙과 현재 진행 중인 컴퓨팅 스케일링 법칙은 이론적인 최대 컴퓨팅 효율성에 한참 미치지 못합니다. 인간의 뇌는 여전히 수천 조 개의 연결을 가지고 있습니다. 현재까지 가장 큰 모델은 1.5조 개의 파라미터를 가지고 있습니다. 이는 현재 모델 크기를 최소 1,000배까지 확장할 수 있으며, 여전히 지적 이점을 얻을 수 있다는 것을 의미합니다.

AI가 저작권뿐만 아니라 모든 지적재산권을 파괴할 것이라고 생각합니다. 발명의 속도가 너무 빨라져서 모든 아이디어, 대부분의 새로운 발명은 인간의 노력을 전혀 고려하지 않고 AI에 의해 이루어질 것입니다. 경제는 백지화될 것입니다.

(2) AGI에 대한 새로운 개념들

그런데 계속해서 자주 언급하는 단어인 'AGI'에 대한 정의에 대해서, 정확히 짚고 넘어갈 필요가 있습니다. 컴퓨터 공학자들과 개발자들 사이에서는 그 정의가 다양하기 때문입니다. 우선, 일반적으로 통용되는 개념은 특정 작업에 국한되지 않고 인간처럼 다양한 작업을 이해하고 수행할 수 있는 AI를 뜻합니다. 그런데, 최근 OpenAI와 마이크로소프트가 AGI에 대한 정의에 대해 어떠한 컨센서스를 갖고 있는지의 정보가 유출되었습니다. 두 기업은 2023년 체결한 협약에서 AGI를, 'AGI는 1,000억 달러 이상의 이익(profits)을 창출할 수 있는 AI 시스템'이라고 규정지었습니다.

먼저 해당 협약의 목적 중 하나는 마이크로소프트와 OpenAI의 지속적인 협력을 보장하기 위한 것일 것으로 보입니다. 왜냐하면, 둘 간의 기존 계약에 따르면 OpenAI가 'AGI를 달성하면' 마이크로소프트는 기술 접근권을 잃게 되기 때문입니다. 게다가 마이크로소프트는 OpenAI가 AGI를 달성하기 전까지 수익의 일부를 공유받을 권리가 있는데 이것도 사라지게 됩니다. 따라서, OpenAI가 AGI를 이룩했는지 못했는지는 둘에게 엄청난 의미를 가집니다.

그런데 중요한 점은 이들이 정한 AGI의 정의가 기존의 기술적, 철학적 AGI 정의와는 크게 다른 상업적 접근방식입니다. 또한, OpenAI가 기존에 공식적으로 정의했던 '대부분의 경제적 가치 있는 작업에서 인간을 능가하는 고도로 자율적인 시스템'이라는 것과 별개의 뜻으로 관측됩니다. 이 때문에 수익 중심의 AGI 정의가 AI 안전성과 윤리적 개발에 미칠 영향에 대한 우려가 커지고 있고, 이 새로운 정의가 향후 AI 규제 정책 수립에 영향을 미칠 수 있으며, 정부 규제 기관의 주목을 받을 것으로 전망됩니다.

다만, OpenAI의 AGI 달성을 위한 구체적인 시간 제한은 명시되지 않았습니다. 이는 OpenAI가 장기적인 관점에서 이 목표를 추구할 수 있음을 시사합니다. 실제로 OpenAI가 AGI를 달성하기까지는 상당한 시간이 걸릴 것입니다. OpenAI는 현재 적자 상태이며, 2029년에야 수익성을 확보할 것으로 예상되는 상태이기 때문입니다. 그리고 2024년 9월, OpenAI는 2029년까지 연간 매출(revenue)이 1,000억 달러에 도달할 것으로 예측하고 있다는 보도가 있었습니다. 그러니까 최소 2030년까지는 두 회사는 계속해서 손을 맞잡고 있을 것이라고 예상하는 것이 합리적입니다. 물론, 두 회사는 오월동주의 상태이기도 합니다. OpenAI는 자체적으로 AI 개발을 위한 데이터센터 클러스터를 지으면서 마이크로소프트의 자체 AI 가속기인 MAIA 사용보다는 자체 칩까지 설계하려고 하고 있습니다. 그리고 마이크로소프트도 자체 개발 언어모델 Phi를 더 장려하고 있는 실정입니다.

위의 샘 알트만 트윗을 보게 되면, OpenAI 내부에서는 본인들이 AGI를 구축할 수 있다고 자신 있게 판단하고 있다는 것을 알 수 있습니다. 물론 CEO인 말을 곧이 곧대로 믿을 수는 없고, 실무자인 AI 연구원의 말 또한 주의 깊게 볼 필요가 있습니다. 그리고 며칠 전, AI 업계와 학계의 AI 연구원들이 참여한 찬반토론이 있었는데, 여기서 OpenAI의 연구원 Sebatien Bubeck이 말한 내용들이 흥미롭습니다. '현재의 대형언어모델 스케일링의 방법론이 주요 수학적 가설을 해결하는데 필요한 새로운 증명기법을 생성하기에 충분한가?'에 대한 주제로, 예일대학교 Tom McCoy와의 찬반토론에서, 당연히 Bubeck은 '찬성'을 선택했습니다.

그는 현재의 LLM들이 단순한 모델 크기 확장이나 다음 단어 예측 능력의 향상만을 의미하지 않고, 사후학습 과정을 통한 지능의 추출과 활용이 핵심이라고 말했습니다. 사전훈련이 '다음 토큰 예측'에 초점을 맞춘다면, 사후훈련은 '사용자 질의에 답하기'나 '구체적 과업 수행'에 초점을 맞춘다는 것으로 이해할 수 있습니다. 실제로 OpenAI의 reasoning 모델인 o1의 경우에는 사전학습(pre-training)뿐만 아니라, 사후학습(post-training)에다 엄청난 공을 들이는 모델입니다. 그리고 추론 시간(test-time)에서 답변을 내놓기 전에 충분한 사고 시간을 들여 Tree search(예: MCTS)를 할 수 있게끔 해 답변의 품질을 높이는 새로운 패러다임이고, 이 방식대로 스케일링을 할 수 있다면, 중요한 수학적 돌파구를 만들 수 있다고 Bubeck은 제안했습니다.

특히, Bubeck의 말 중에서 가장 인상 깊었던 것은 'AGI 시간'(AGI 초, 분, 시간)이라는 것으로 발전 단계를 구분한 새로운 개념을 제시한 점입니다. AI의 지능이 단순히 데이터 크기나 모델 크기로만 평가되는 것이 아니라, 시간 단위로 문제를 해결할 수 있는 능력, 즉 '생각하는 시간'을 기준으로 평가하고 있다는 점에서 주목할 만합니다. 특히, Bubeck은 o1이 특정 문제, 특히 코딩이나 일부 수학 문제에서는 이미 'AGI 시간(hours)'에 도달했다고 밝혔습니다. 그리고 'AGI 주(weeks)'에도 3년 내 도달할 수 있을 것이라고 했습니다. 이것은 향후에 OpenAI o1(및 o3, o4 등) 시리즈 모델들이 답변을 내놓기 전에 단지 몇 초가 아니라 심지어 수백 시간 생각할 모델이 나올 수 있다는 것을 의미합니다.

이 경우, 엄청난 컴퓨팅 자원(AI 가속기 및 인터커넥트, 그리고 전력) 등이 수반될 것은 자명한 일입니다. 그러나, 엄청난 자원 압박에도 적어도 그들은 방법론을 알고 있고 이대로 밀어붙일 것이라는 점이 중요합니다. 앞으로도 AI 하드웨어 시장은 계속해서 주목을 받을 것을 암시합니다.

반면, Bubeck의 반대편에 섰던 Tom McCoy라는 사람의 견해는 단순히 스케일링 하는 것만으로는 창의적인 도약을 제공하지 못한다면서, 스케일링 방식의 실용적 한계에 대해 언급했습니다. 예를 들어, 데이터 부족이나 스케일링 법칙이 지수적으로 증가하는데 따른 비효율성을 지적한 것입니다. 다만, 어떤 방식이 대안이 될 것인지에 대한 아이디어는 부재했습니다. 또한, AI 회의론자가 비효율성을 지적한 것은 새로운 과학적 돌파구가 있어야만 한다는 것이 아니라 현재 방식의 대규모 엔지니어링으로 극복할 수 있는 문제라는 것을 암시하기도 합니다.

하지만, 데이터와 부족과 관련해서 흥미로웠던 또 다른 인사이트는 위 토론에 추가 패널로 참여했던 Anthropic의 개발자 Izmailov로부터 나왔습니다. 그는 인터넷에 있는 데이터가 단순히 인간의 지식이 아닌, 초인적인 데이터도 포함되어 있다고 지적했습니다. 그리고 LLM은 데이터 내의 구조나 패턴을 매우 잘 인식하는 능력을 가지고 있기 때문에, LLM은 인간이 할 수 없는 방식으로 문제를 해결할 수 있다고 보고 있는 것입니다. 즉, 현재의 방법으로도 아직 혁신할 수 있는 부분이 많이 남아 있고 벽(wall)을 걱정할 때는 아니라는 뜻으로 사료됩니다.

한편, 우리 팀 또한 데이터 부족에 대한 것도 합성 데이터(synthetic data)가 이 문제를 어느 정도 상쇄해주고 있다고 생각합니다. 주목해야 할 것은 대형 AI 연구소들은 더 많은 비공개 데이터(예: 메타는 공용 인터넷 데이터의 100배에 달하는 데이터)를 보유하거나, 비디오 소스(YouTube는 매일 72만 시간의 새로운 비디오 업로드) 같은 광대한 추가 데이터 소스가 있다는 점도 잊지 말아야 합니다.

물론 비디오를 통해 1천조 개에 달하는 토큰을 확보할 수 있지만, 이는 또 다른 차원의 대규모 컴퓨터 확장을 요구하게 됩니다. 대규모 훈련을 위해서는 수많은 가속기가 필요하며, 이는 단일 데이터센터 한계를 넘어 다중 데이터센터 훈련을 요구한다는 말입니다. 모든 빅테크들이 capex 확장에 나서고 있는 것은 바로 이런 이유에 있습니다. 이 기업들의 결정권자들은 스케일링 법칙이 여전히 건재하다는 믿음을 굳게 갖고 있는 것입니다.

  • 아마존은 맞춤형 실리콘 Trainium2 개발을 가속화하고 Anthropic에 40만 개의 칩을 제공하며, 총 65억 달러에 달하는 IT 및 데이터센터에 투자하고 있음

  • 메타는 2026년까지 루이지애나 주에 2GW 규모의 데이터센터를 구축할 계획

  • OpenAI나 구글은 단일 사이트 전력 한계를 넘기기 위해 다중 데이터센터에서 대규모 훈련을 진행

(3) AI의 다음 스케일링 분야는?

AGI로의 스케일링이 계속해서 가능할 수 있다면, 가장 큰 변화를 맞을 것은 무엇이 될까요? AI 개발자나 커뮤니티에 참여하는 소수의 사람들만이 아니라, 대중이 가장 피부로 와닿을 수 있게 AI가 보급되려면 결국 유형의 무언가, 즉, 'embodied(=실체가 있는) AI'가 필요합니다. AI 에이전트 또한 단순히 소프트웨어 형태로만 제공되는 것이 아닌 하드웨어에 심어져야 많은 사람들이 이를 체감할 수 있기 때문입니다.

이와 관련해서, 엔비디아의 로보틱스 프로젝트인 'GR00T'의 책임자라고 할 수 있는 Jim Fan 박사가 중대한 인사이트를 제공했습니다. 그는 AI의 다음 스케일링 분야는 애플의 iPhone보다 훨씬 큰 시장 규모로 확장될 것이라고 주장했습니다. 그가 말한 폼팩터는 총 3가지인데, 바로 자율주행 자동차와 드론, 그리고 휴머노이드 로봇입니다. 각각의 이유에 대해서 그가 제시한 근거는 굉장히 직관적이고 상식적입니다.

  • 자율주행 자동차: 우리 모두는 어디든 이동해야 하기 때문에

  • 드론: 하늘을 나는 것이 인간의 한계이기 때문에

  • 휴머노이드 로봇: 세상이 우리를 위해 만들어졌기 때문에(모든 시설, 가전제품, 도구들이 우리의 형태를 중심으로 설계). 특히, 로봇들은 가장 '브라운필드화' 가능. 즉, 기존 세계를 변경하지 않고도 바로 가치 창출이 가능

위 세 가지 폼팩터에 AI 모델들이 심어져 앞으로 물리적 형태의 에이전트로 활용될 것은 자명해 보입니다. 테슬라의 FSD 같은 소프트웨어도 이러한 범주로 보면, 에이전트라고 할 수 있습니다. 다시 말해 2025년은 여러가지 관점으로 봐도 '에이전트의 해'라고 할 수 있는 것입니다. 사실, 위 세 가지를 Jim Fan 박사가 언급한 것은 그만큼 엔비디아가 여러 폼팩터에 맞춰 잘 개발되고 있고 중요한 입지를 지닌 업체임을 넌지시 드러내는 말이기도 합니다. 그럼에도 그가 맡은 로보틱스의 경우에는 그의 직무적 편향을 제거하더라도 그 중요성은 몇 번이고 강조해도 지나치지 않습니다. 그는 로보틱스의 운명에 대해 이런 말을 남겼습니다.

우리가 모든 곳에 첨단 로봇이 없는 마지막 세대라는 것을 알면 큰 위안이 됩니다. 6인치 터치스크린에서 삶을 재정렬하는 것을 배웠던 우리의 부모님들이 '디지털 이민자'였던 것처럼, 우리는 '로봇 이민자' 세대입니다. 우리의 자녀들은 '로봇 원주민'으로 성장할 것입니다. 그들은 휴머노이드가 미슐랭 수준의 저녁을 요리하고, 로봇 테디베어가 잠자리 이야기를 들려주며, FSD(완전 자율주행)가 그들을 학교에 데려다주는 세상에서 자랄 것입니다.

물리적 AI가 편재한 새로운 세계로 향하고 있습니다. 이는 공상과학 기술을 발명하고 우리 자신을 재발명하는 여정입니다. 움직이는 모든 것이 자율적이 될 것입니다. 지금부터 매년이 로보틱스의 해가 될 것입니다. 다가오는 2025년이 그런 격동의 해가 되길 기대합니다.

(4) 중국의 엄청난 경쟁력

Jim Fan 박사가 말한 세 가지 폼팩터에 대해서 미국만큼, 아니, 미국보다 더 주목할 만한 성취물을 내놓고 있는 국가는 중국입니다. 우선 자율주행 자동차 소프트웨어에서 중국의 기업들은 기존의 라이다/레이다 기술을 지양하고 테슬라의 방식을 모방해 어떠한 미국 업체들보다도 빠르게 테슬라의 방식을 흡수/모방하고 있습니다. 일론 머스크가 몇 년 전부터 경쟁에 있어서 가장 경계해야 할 업체들은 기존 내연기관 업체들이 아닌 중국의 전기차 업체들이라고 말해왔던 것은 다 이유가 있습니다. 또한 드론 기술에 있어서는 사실 글로벌 1위 국가가 중국이라는 점은 부인하기 힘듭니다. 게다가 러시아-우크라이나 분쟁으로 '민간 사용목적'으로 러시아에 흘러 들어가 그 성능을 입증했다는 것은 공공연한 사실이기도 합니다. 그리고 중국은 각종 국가적 행사가 있을 때마다 기존의 불꽃놀이를 대신해 수천 개, 심지어는 수만 개의 드론으로 검은 밤하늘에 장관을 연출하기도 합니다. 이것은 단지 예술적 의미라기보다는 엄청난 숫자의 드론의 항법을 실시간으로 대열에 맞게 조율을 할 수 있다는 기술적인 의미가 더 큽니다. 이 드론들에 향후 AI 에이전트급 모델이 접목되어 군사적으로 활용될 수 있다고 가정하고, 어떤 양상이 펼쳐질지 그려보면, 그 위력을 상상할 수 있을 것입니다.

그리고 무엇보다 휴머노이드 로봇과 관련해서 중국의 생산 능력은 다른 국가들의 추종을 불허할 정도로 다양한 모델들이 거의 매달 출현하고 있습니다. 물론 아래의 기업들 중에서 얼마나 많은 기업들이 실제로 살아남을지 장담할 수는 없습니다. 하지만, 이는 원래 중국 정부의 신산업 육성 정책과 궤를 같이 합니다. 중국의 신재생 에너지 자동차 기업 수십곳이 문을 열었지만, 그 중에서 결국 살아남은 소수의 업체들이 경쟁력을 갖고 글로벌 시장에 문을 세차게 두드리고 있는 것과 같은 방식이 될 것입니다.

2023년 11월, 중국은 휴머노이드 로봇 발전을 위한 9페이지 분량의 행동 강령을 발표했고, 여기에는 2025년까지 주요 기술적 돌파구를 달성하겠다는 목표가 담겨있습니다. 그리고 이제 2025년이 되었으니 위에 기재된 여러 업체들 중 옥석이 가려지는 것과 동시에 로봇 대중화를 위한 각종 진전들이 이뤄질 것으로 사료됩니다.

이러한 중국의 진전은 미국 기업들과 미국 정치권의 조급함을 불러일으키는데 충분합니다. 미국이 흘리는 진땀은 로보틱스에만 머무르지 않습니다.

최근 중국의 스타트업인 DeepSeek가 발표한 모델 'DeepSeek-V3'는 미국의 AI 개발자뿐만 아니라 주류 미디어인 CNBC에서까지 언급될 정도였습니다. CNBC는 "중국의 Deepseek-V3가 엔비디아 중국 수출용 GPU인 H800에서 훨씬 적은 비용으로 학습되었음에도 Llama 3.1과 GPT-4o를 능가하는 성능을 보여주고 있다"고 언급했습니다. CNBC같은 주류 매체에서 이를 다룬 것이 놀라웠고, 그들이 이러한 내용을 알고 있다는 점조차 충격적이었습니다. AI 커뮤니티에서나 언급될 만한 소식이었기 때문입니다.

참고로 DeepSeek라는 기업은 대중들에 아마도 가장 덜 알려진 1티어급 AI 기업일 것입니다. DeepSeek에 대한 몇 가지 흥미로운 몇 가지 사실이 있습니다. AI 팀 전체가 중국 내에서 채용되었으며, 외국 기업 근무 경험자가 없고, 창업자는 미국이 아닌 중국의 저장대학교를 나왔다는 것입니다. 또한, 지금까지 외부 투자를 받거나 찾지 않고, 단지 본인들의 헤지펀드(High-Flyer)에서 자체 자금 조달하는 베일에 싸인 업체라는 사실입니다. 그럼에도 이들이 내놓은 non-reasoning 모델인 'V3'와 reasoning 모델인 'R1'은 그 성능에 깜짝 놀라지 않을 수 없었습니다.

CNBC 앵커가 말한 내용을 좀 더 세부적으로 말하면, DeepSeek는 최소한의 예산(2,048개의 GPU를 2개월 동안 사용, 600만 달러 이하)으로 하이엔드급 LLM를 성공적으로 출시한 것입니다. 실제로 우리 팀도 DeepSeek의 모델을 사용해보고 그 성능과 속도에 굉장히 놀랐습니다. 며칠간 써보면서 느꼈던 체감 성능은 GPT-4o이나 Claude-3.5-Sonnet만큼의 수준은 되는 것 같다는 점이었습니다. 참고로 일반적으로 이 수준의 성능을 내려면 현재 구축되고 있는 GPU 기종을 기준으로 할 때 약 100,000개의 GPU가 필요하다고 사료됩니다.

메타의 Llama-3-405B는 3,080만 GPU-시간을 사용한 반면, DeepSeek-V3는 더 강력한 모델임에도 불구하고 약 280만 GPU-시간(약 11배 적은 컴퓨팅)만을 사용했습니다. 2~3배 수준이 아니라 10배 이상의 자원 효율을 알고리즘 혁신으로만 냈다는 점에서, 미국을 포함한 서방의 AI 개발자들은 경악을 금치 못했습니다. 대략 미국의 xAI의 'Colossus' 클러스터를 DeepSeek이 사용한다는 것을 가정하면, 그들이 하루만에 SoTA 모델을 훈련할 수 있다는 뜻이기도 합니다.

만약 이 모델이 검증을 통과한다면(예: LLM 아레나 순위 테스트 완료), 이는 자원 제약 하에서 이룬 매우 인상적인 연구 및 엔지니어링의 성과가 될 것은 당연한 사실이 될 것입니다.

그렇다면, 이것이 최첨단 LLM 개발에 대규모 GPU 클러스터 같은 것은 필요 없다는 것을 의미할까요? 구글과 OpenAI, 메타, 그리고 xAI의 엄청난 컴퓨팅 투자는 지나고 보면 부질없는 것이었을까요? 그렇지는 않다는 게 우선 AI 개발자들의 중론입니다. 그럼에도 데이터와 알고리즘을 통해 아직도 많은 것을 얻을 수 있다는 좋은 예시라는 점은 분명하고, 앞으로도 많은 최적화 방식이 나올 것으로 사료됩니다.

DeepSeek의 V3 모델은 오픈소스로 출현했기 때문에, V3에 대한 테크니컬 리포트가 굉장히 상세하게 기술되었습니다. 이 리포트를 보면 DeepSeek가 어느 정도의 낮은 레벨(low level)로 최적화를 수행했는지 기록되어 있습니다. 이들이 최적화한 수준을 한 문장으로 말하면 '정말로 맨 밑바닥에서부터 뜯어고친 거 같다'는 것으로 요약할 수 있습니다. 예를 들어, DeepSeek는 엔비디아의 H800으로 V3를 훈련할 때, GPU의 핵심 연산 단위인 SM(스트리밍 멀티프로세서)의 일부분을 본인들의 입맛대로 쪼개어 활용합니다. 132개의 SM 중, 연산 작업이 아닌 서버간 통신 작업만 수행하게 할 목적으로 20개의 SM을 분할하는 것입니다.

이때 PTX(Parallel Thread Execution: 엔비디아 GPU를 위한 저수준 명령어 세트) 레벨에서 커스터마이징을 하게 되는데, PTX는 어셈블리 수준에 가까워 레지스터 할당 및 스레드/워프 수준의 자잘한 최적화를 세밀하게 지정할 수 있기 때문입니다. 그런데 이러한 세부 제어는 복잡하고 유지보수도 어렵습니다. 그래서 일반적으로는 CUDA와 같은 상위 레벨 언어를 사용하고, 대부분의 병렬 프로그래밍은 CUDA 레벨에서 개발·최적화해도 충분한 성능을 얻을 수 있다고 알려져 있습니다.

그러나 GPU 리소스를 극한으로 활용해 특수한 최적화가 필요한 경우에 한해서는 PTX를 직접 다루게 됩니다. 즉, 그만큼 DeepSeek이라는 업체가 작업하고 있는 엔지니어링 작업이 엄청난 수준의 고난도라는 점, 그리고 미국의 대중 압박 조치로 인한 'GPU 부족 사태가 절박함과 창의성을 만들어줬다'는 점을 캐치해야 합니다. DeepSeek-V3의 리포트도 미중 AI 업체들 간 경쟁이라는 범주의 별도의 자료로, 우리 팀은 출시할 계획입니다.

댓글목록

등록된 댓글이 없습니다.