본문

글로벌 핫이슈 AI 과학의 특이점이 왔다 vol. I

기고: 디지털리서치팀 한종목 선임매니저, 김은지 매니저

I. AI의 과학적 발견

1. 서론: 문명의 분기점, 번영 혹은 멸종

미국의 댈러스 연방준비은행은 AI의 경제적 파급효과를 세 가지 시나리오로 분석했습니다. 우선 그들은 역사적 1인당 GDP 성장률을 연 1.9%를 기준으로 삼았습니다. 그런데 AI가 이 기준점에서 문명의 경로를 세 가지 극단적 경로로 분기한다는 게 포인트입니다. 첫째는 완만한 생산성 향상, 둘째는 긍정적 특이점으로 인한 폭발적 번영, 마지막은 부정적 특이점으로 인한 인류 멸종, 즉 GDP 0의 상태입니다. 이 분석의 핵심은 AI가 단순한 경제 변수가 아니라는 사실입니다. 이는 문명의 존속 자체를 결정할 수 있는 중대한 분기점임을 의미합니다. 기술적 낙관론이 이끄는 번영과 합당한 두려움이 예견하는 멸종, 이 양극단의 가능성을 압축적으로 표현한 것입니다. AI라는 기술은 핵폭탄급 위력을 지녔습니다. 미국의 통화정책 당국자조차 이 기술이 미래를 결정짓는 엄청난 분기점임을 충분히 인지하고 있다는 뜻입니다.

2. 능력의 정량적 증명: 인간 전문가 영역으로의 진입

AI의 발전은 추상적 담론이 아닌, 정량적 데이터로 증명되는 현실입니다. 다양한 전문 분야에서 AI의 능력은 이미 인간 전문가 수준에 도달했거나, 격차를 무서운 속도로 좁히고 있습니다.

2-1. 범용 전문성: 산업 전문가와의 성능 비교

OpenAI의 GDPval 연구는 AI의 능력이 특정 코딩 분야에 국한되지 않고 경제 전반으로 확장되고 있음을 증명하기 위한 자료입니다. 연구는 9개 산업, 44개 직업에 걸쳐 총 1,320개의 실제 업무 과제를 대상으로 했습니다. 평가 방식은 평균 14년 경력의 산업 전문가가 수행한 결과물과 AI의 결과물을 블라인드로 비교 평가하는 것이었습니다. 측정된 'AI 승리' 또는 '무승부' 비율은 GPT-4o 12.4%, Grok 4 24.3%, Gemini 2.5 Pro 25.5%, GPT-5 high 38.8%, Claude Opus 4.1이 47.6%를 기록했습니다.

OpenAI가 발표한 것인데 GPT-5보다 경쟁사인 Anthropic의 Claude 모델이 더 우수하다고 한 것은 이 평가의 신뢰성을 더욱 높이는 요소입니다. 더욱이, 가장 성능이 높은 Claude Opus 4.1 모델이 기록한 데이터는 그 중요성이 남다릅니다. 47.6%라는 수치는 '산업 전문가와 대등한 수준(Parity with industry expert)'을 의미하는 기준선 50%에 극도로 근접한 값입니다. 다시 말해, 인간 전문가와 대등한 수준에 불과 2.4%p 차이로 근접했으며, 다음 세대 모델이 이 격차를 해소할 가능성은 매우 높습니다. 물론 GDPval의 과제들이 실제 현장의 복잡하고 '지저분한(messy)' 문제를 완벽히 반영하지 못할 수 있다는 일각의 비판도 존재합니다. 그럼에도 이는 AI가 특정 업무 영역에서 인간 전문가의 생산성에 거의 도달했음을 시사하는 강력한 증거 데이터입니다.

실리콘밸리 AI 커뮤니티에서는 AGI 도래 시점을 '불과 몇 년'으로 보는 것이 일반적이며, '10년'을 예측하면 오히려 '긴 타임라인'으로 여깁니다. 기술의 한계와 난점을 가장 잘 아는 실무 전문가들이 오히려 가까운 미래에 큰 장벽이 없다고 본다는 점은, 현재의 개발 방향이 올바르며 남은 과제들이 해결 가능한 공학적 문제에 가깝다고 인식하고 있음을 시사합니다.

2-2. 최상위 도메인 정복: 금융 및 과학 올림피아드

AI는 범용성을 넘어, 인간 지성의 가장 깊고 어려운 영역까지 정복하고 있습니다. 금융과 과학 분야의 최고난도 시험 통과는 그 상징적인 사례입니다.

첫째, 일부 최첨단 AI 모델들은 세계에서 가장 어렵다고 평가받는 CFA Level III 시험의 모의고사를 통과했습니다. 이 시험은 실제 응시자 중 합격 비율이 49%에 불과하고, 역사적으로도 평균 합격률이 50% 안팎에 머무는 시험입니다. 최고 성적을 기록한 모델은 OpenAI o4-mini(79.1%)와 구글 Gemini 2.5 Flash(77.3%)였습니다. 이 연구는 NYU Stern 경영대학원과 GoodFin이 공동으로 진행했으며, 구글, OpenAI, Anthropic 등 23개 주요 모델을 분석했습니다. 평가 방식은 객관식과 에세이 형식의 복합 평가였습니다. 핵심 발견사항은 모델 간 능력 차이에 있었습니다. 객관식 문항에서는 대부분 모델이 71-75% 범위로 비슷한 성적을 보였으나, 에세이 형식의 문제에서는 점수 편차가 크게 나타났습니다. 이는 단순 지식 암기 및 적용은 상향평준화 되었으나, 복잡한 논리 전개와 추론 능력은 여전히 최첨단 모델들의 차별화 요소임을 시사합니다. 이미 마이크로소프트 보고서는 개인 금융 자문가를 AI가 대체할 가능성이 높은 직업군으로 분류한 바 있습니다.

둘째, AI는 세계 최고 수준의 과학 영재들과 겨루어 금메달 수준의 성과를 거두었습니다. GPT-5와 Gemini 2.5 Pro는 2022-2025년 국제천문학 및 천체물리학 올림피아드(IOAA) 이론 시험에서 압도적인 성과를 달성했습니다. 두 모델은 각각 평균 84.2%와 85.6%를 기록하며 금메달 수준의 성과를 보였고, 이는 약 200-300명의 참가자 중 상위 2위 안에 랭크되는 수준입니다. 연도별 세부 성적은 다음과 같습니다.

  • 2025년 이론 시험: GPT-5 86.8% (1위), Gemini 2.5 Pro 81.2% (2위)
  • 2022년 이론 시험: GPT-5 93.0% (1위), Gemini 2.5 Pro 91.8% (2위)

이 결과의 신뢰도는 데이터 오염(contamination) 가능성을 배제함으로써 더욱 높아집니다. 2025년 8월에 실시된 시험은 모든 평가 모델의 최신 지식 컷오프(2025년 3월)보다 늦게 치러졌습니다. 이는 모델이 시험 문제를 사전에 학습했을 가능성이 자연스럽게 차단되었음을 의미합니다. 2025년 시험 점수가 전체 평균 점수와 유사하다는 점 역시 오염의 영향이 최소 수준임을 시사하는 근거입니다.

데이터 분석 능력에서는 모델 간의 질적 차이가 더욱 선명하게 드러났습니다. GPT-5는 이론 시험뿐만 아니라 데이터 분석 시험에서도 평균 88.5%라는 높은 성적을 유지하며 최근 4개 IOAA에서 상위 10위 안에 들었습니다. 반면, 다른 모델들은 데이터 분석 시험에서 성적이 48-76%로 하락하며, 이론 시험 대비 10-15%포인트나 점수가 떨어졌습니다. 이 격차의 원인은 멀티모달 역량에 있었습니다. GPT-5는 도표를 읽고 그리는 과정에서 오류가 현저히 적었으며, 이는 멀티모달 능력의 차이가 데이터 분석 성과를 결정하는 핵심 요인임을 입증합니다.

앞으로 선도적인 AI 기업들이 어느 쪽으로 집중할 수밖에 없는지를 의미한다고 볼 수 있습니다. 그 방향이라는 것은, 높은 확률로 프레임 생성(혹은 동영상 생성) 모델의 연구가 될 것입니다. 그리고 이는 기존의 연구와는 차원이 다를 정도의 컴퓨팅 자원이 필요하다는 것을 유념해야 합니다. 물론, 이번 천문학 금메달의 성과 이면에는 AI의 체계적 약점도 명확히 드러났습니다. 모델들은 물리/수학적 계산이 중심인 문제(Category II)에서는 67-91%의 강한 성과를 보였습니다. 하지만 기하학적, 공간적 추론이 필수적인 문제(Category I)에서는 49-78%로, 성과가 15-26%포인트나 급락했습니다. 모델들은 3차원 구성을 시각화 하지 못하고 천구 좌표 간 각도를 잘못 식별했습니다. 심지어 기본 기하학적 원칙을 위반하는 방정식을 작성하기도 했습니다. 이는 AI가 본질적으로 자연어로만 추론할 수 있고, 사고 과정에서 인간 참가자처럼 공간적 표현을 머릿속으로 시각화하거나 스케치할 수 없는 근본적인 한계 때문입니다. 공간적 직관과 능력의 부재는 AI가 아직 인간과 같은 방식의 '이해'에는 완전히 도달하지 못했음을 보여주는 증거입니다.

그러나 이러한 약점의 존재가 AI가 과학적 발견의 영역에서 갖는 파괴적인 잠재력을 약화시키는 것은 아닙니다. 오히려 이는 AI의 기여 방식이 인간의 직관과 공간 지각을 완벽하게 모방하는 것이 아님을 명확히 합니다. 인간의 뇌가 특정 종류의 문제에 특화되어 있듯, AI는 인간이 취약한 '고차원적 복잡성'과 '대규모 데이터 패턴 인식' 영역에서 초인적인 능력을 발휘합니다. 그리고 AI가 새로운 지식을 창출하는 '발견의 주체'로 부상하고 있다는 증거는 점점 더 많이, 또 자주 나오고 있습니다. 다음 사례들은 AI가 자신의 고유한 강점을 활용하여 어떻게 인간 지성의 경계를 확장하고 있는지, 과학적 발견 방법론 자체의 근본적인 패러다임 전환을 어떻게 바꾸고 있는지 설명할 것입니다.

3. 패러다임 전환: 도구에서 발견의 주체로

3-1. AI 신약개발? 구글 C2S-Scale

2025년 10월, 구글과 예일대학교 공동 연구팀은 AI가 생물학적 발견의 새로운 지평을 열었음을 입증했습니다. 구글의 오픈소스 언어 모델 'Gemma'를 기반으로 구축된 270억(27B) 파라미터의 파운데이션 모델 'C2S-Scale 27B'가 암세포의 행동에 관한 독창적이고 검증 가능한 가설을 생성했고, 이 가설은 실제 살아있는 인간 세포 모델 실험을 통해 성공적으로 증명된 것입니다. 이 성과는 AI가 기존 지식을 반복하는 것을 넘어, 맥락 의존적인 생물학적 현상을 추론하고 이전에 보고된 바 없는 새로운 과학적 아이디어를 창출할 수 있음을 보여주는 이정표입니다. 구체적으로 이 발견은 특정 조건 하에서 암세포의 '면역 회피' 메커니즘을 무력화하고 면역치료 효과를 증폭시킬 수 있는 새로운 경로를 제시하며, 향후 신약 개발의 패러다임을 바꿀 잠재력을 시사합니다.

생물학적 난제와 AI의 과제

생물학적 난제는 면역체계에 보이지 않는 '차가운 종양(Cold Tumor)'이었습니다. 이 암세포들은 면역세포의 눈을 피하기 위해 일종의 '투명 망토'를 두르고 숨어 다닙니다. 과학자들의 목표는 이 투명 망토를 벗겨 면역세포의 눈에 잘 띄게 만드는 것, 즉 종양을 면역세포가 인지하고 공격할 수 있는 '뜨거운(hot)' 상태로 전환시키는 것입니다.

연구팀은 C2S-Scale 모델에 매우 정교한 과제를 부여했습니다. 핵심 면역 신호 단백질인 '인터페론'이 낮은 수준으로 존재하여 그 자체만으로는 항원 제시를 최대로 유도하기에 불충분한 환경(즉, 면역-맥락-양성의 환경) 환경에서만 선택적으로 항원 제시 신호를 증폭시키는 약물을 찾아내는 것이었습니다. 이는 '좋은 약'을 찾는 것만이 아니라, '특정한 조건에서만 작동하는 약'을 찾아야 하는 고차원적 조건부 문제였습니다. 이러한 조건부 추론 능력은 모델의 규모가 커짐에 따라 발현되는 '새롭고 차별화된 능력(emergent capability)'으로, 더 작은 규모의 모델들은 이러한 맥락 의존적 효과를 해결하지 못했습니다.

AI의 가설 생성과 실험적 검증

질문을 받은 AI는 4,000개가 넘는 약물로 가상 스크리닝을 실행했고, 카이네이즈(kinase) CK2 억제제인 '실미타서팁(silmitasertib, CX-4945)'에 대해 명확한 '맥락 분리(context split)' 효과를 예측했습니다. 즉, 구글의 AI는 "실미타서팁이 '면역-맥락-양성' 환경에서 항원 제시를 강력하게 증가시키지만, '면역-맥락-중립' 환경에서는 거의 효과가 없을 것"이라는 가설을 낸 것입니다. 이 예측은 완전히 새로운 가설이었습니다. CK2가 면역 시스템 조절에 관여한다는 사실은 알려져 있었지만, 실미타서팁이 MHC-I(암 세포를 죽이는 면역세포를 불러오는 역할) 발현을 명시적으로 강화한다는 내용은 기존 문헌에 보고된 바 없었습니다. 이는 모델이 단순히 알려진 사실을 조합한 것이 아니라, 검증 가능한 새로운 과학적 가설을 생성했음을 의미합니다.

연구팀은 이 예측을 검증하기 위해 모델의 훈련 데이터에 전혀 포함되지 않았던 인간 신경내분비 세포 모델을 사용했습니다. 실험 결과는 AI의 예측과 놀라울 정도로 일치했습니다. 정량적 데이터는 AI의 예측 정확성을 명확히 뒷받침한 것입니다. 실미타서팁과 저용량 인터페론을 병용 처리했을 때, 세포 표면의 MHC-I 발현이 현저하고 시너지 효과를 내며 증폭된 것입니다. 컴퓨터 시뮬레이션(in silico) 예측이 시험관(in vitro) 실험을 통해 정량적으로 완벽하게 검증한 것이라 볼 수 있습니다.

범용 생물학 AI의 청사진, C2S-Scale 프레임워크

이 발견을 가능하게 한 기술적 핵심은 C2S, 즉 'Cell2Sentence(세포를 문장으로)' 프레임워크입니다. 이 접근법이 왜 혁신적인지를 이해하려면 이전 생물학 AI의 근본적인 한계부터 짚어야 합니다. 이전의 생물학 AI들은 '특정 문제만 풀 수 있는 전용 계산기'와 같았습니다. A라는 문제를 풀기 위해 정교하게 설계된 맞춤형 아키텍처는 B라는 문제를 풀지 못했습니다. 모델을 더 똑똑하게 만들기 위한 업그레이드는 복잡했고, 다른 분야의 새로운 지식(예: 자연어 이해 능력)을 통합하는 것은 거의 불가능했습니다.

그런데 C2S 프레임워크는 이 문제를 발상의 전환으로 해결했습니다. 복잡한 생물학 데이터를 언어 모델이 가장 잘 이해하는 형태, 즉 '텍스트'로 변환한 것입니다. 먼저, C2S는 단일세포 RNA 시퀀싱 데이터를 분석하여, 세포 내에서 활동하는 수많은 유전자들을 '발현량'이 높은 순서대로 이름을 쭉 나열합니다. 이렇게 만들어진 '유전자A 유전자C 유전자B...'와 같은 유전자 목록을 하나의 '세포 문장(cell sentence)'으로 정의했습니다.

이러한 변환은 이제 생물학 문제를 풀기 위해 '전용 계산기'를 새로 만들 필요가 없어졌다는 것을 의미합니다. 이미 수많은 텍스트를 학습해 막강한 추론 능력을 갖춘 '만능 AI(LLM)'에게 이 '세포 문장'을 그냥 보여주면 됩니다. 이는 LLM 개발에 투입된 막대한 자본과 연구 성과, 특히 트랜스포머 아키텍처의 뛰어난 확장성과 텍스트 처리 능력을 생물학 데이터 분석에 온전히 이식할 수 있게 되었음을 의미합니다. 가장 중요한 결과는 자연어 처리 분야에서 입증된 '스케일링 법칙(scaling laws)'이 생물학 데이터에도 동일하게 적용됨을 명확히 보여주었다는 점입니다. C2S-Scale은 모델 파라미터가 4.1억(410M)에서 270억(27B)으로 커짐에 따라 세포 유형 주석, 데이터셋 해석 등 모든 과제에서 성능이 예측 가능하게, 그리고 일관되게 향상되었습니다. 이는 더 큰 모델과 더 많은 데이터가 미래에 더 위대한 생물학적 발견을 이끌 것이라는 명확한 청사진을 제시합니다.

여기서 흥미로운 점은, 이 모델이 더 똑똑하고 정밀한 생물학적 추론을 하도록 훈련시키는 방법으로 DeepSeek가 개발한 GRPO(Group Relative Policy Optimization)라는 강화 학습 기법을 사용한 점입니다. 이 말은 중국도 GRPO를 적극적으로 활용하여 과학적 돌파구에 사용하고 있다는 것을 직감적으로 눈치채야 한다는 말입니다. GRPO 알고리즘을 토한 강화학습 단계에서 AI가 어떤 질문에 대해 여러 개의 가능한 답을 내놓으면, 그중 '생물학적으로 가장 훌륭하고 타당한 답변'에 높은 점수를 부여하게 됩니다. AI는 이 점수를 더 많이 받기 위해 어떤 답이 더 좋은 답인지를 스스로 배워가며, 단순 답을 맞히는 것을 넘어 더 깊이 있고 논리적인 '과학적 판단력'을 갖추게 됩니다.

또한, C2S-Scale의 성공은 단편적인 기술들의 조합이 아닙니다. 이는 '범용성'이라는 목표 아래 '데이터 변환(C2S) - 규모 확장(Scaling Laws) - 정밀 튜닝(GRPO)'이라는 현재 주류인 개발 파이프라인이 성공적으로 작동했음을 입증한 사건입니다. 이 프레임워크의 성공은 이제 생물학 연구가 더 이상 각개전투식의 모델 개발에 의존할 필요가 없다는 자신감을 AI 팀들에 불어넣고, 현재 범용 지능인 LLM의 실제 쓰임새와 가치를 더욱 높입니다. 게다가 앞으로는 유전체학을 넘어 후성유전체학, 단백질체학 등 다양한 데이터를 모두 다 '문장' 형태로 변환하여, 단일 거대 모델에 통합하려는 연구가 폭발적으로 활성화될 것입니다. 이렇게 되면 고지능의 모델을 가진 업체들의 입지는 더욱 올라갈 수밖에 없습니다. 이번 발견은 그 가능성을 연 첫 번째 이정표입니다.

3-2. AI가 양자컴퓨팅을? The QMA Singularity

과학적 발견의 '방법론' 자체가 AI에 의해 근본적으로 재정의되는 역사적 변곡점을, 양자컴퓨팅 최고 권위자인 스콧 아론슨 교수가 본인의 실제 체험을 통해 생생하게 증언했습니다.

해결된 문제와 AI의 역할

아론슨 교수는 GPT-5(Thinking 모드)와의 30분 대화로 양자컴퓨터 과학의 오랜 난제였던 QMA(Quantum Merlin-Arthur) 문제 클래스에서 오류 확률을 줄이는 '증폭(amplification)' 기술의 이론적/수학적 한계를 명확히 증명했다고 밝혔습니다. 이는 해당 분야의 중요한 미해결 문제를 종결시킨 학술적 성과입니다. 아론슨의 글에서 묘사된 GPT-5와의 상호작용은 'AI는 도구'라는 기존의 정의를 완전히 뛰어넘습니다. 말 그대로 '지적 파트너'였다는 게 그의 설명입니다. 인간과 AI의 상호작용은 쌍방향이고 반복적인 '대화의 고리(dialogue loop)'를 형성했기에 이런 것이 가능했다는 것입니다. AI가 첫 해결책을 제시하면, 인간 전문가가 그 제안이 틀린 이유를 논리적으로 반박하며 피드백을 제공하고, 또 AI는 이 피드백을 이해하고 자신의 접근법을 수정하여 더 나은 두 번째 해결책을 제시했다고 합니다. 이런 과정이 몇 차례 반복된 후 마침내 인간 전문가조차 "기발하다(clever)"고 인정할 만한 독창적인 아이디어가 탄생했습니다. 이는 유능한 동료 연구원이나 대학원생과 브레인스토밍을 하는 과정과 매우 유사합니다.

최고 권위자의 인정과 그 함의

스콧 아론슨은 AI의 결과물이 인간의 창의성에 필적하는 수준의 '지적 발상'이라고 인정했습니다. 심지어 "내 학생이 그런 아이디어를 냈다면, 나는 분명 기발하다고 칭찬했을 것"이라는 문장은 AI를 인격적인 학문적 동료와 동일선상에 놓고 평가하고 있음을 보여주는 강력한 증거입니다.

AI 개발자들에게 스콧 아론슨 교수는 기술에 대한 맹목적 낙관론자가 아닌, 지적인 정직과 회의적 시각의 아이콘입니다. 그의 연구 분야인 '양자 복잡도' 이론은 인간 지성의 가장 추상적이고 창의적인 영역 중 하나입니다. 그런 그가 AI의 능력에 대해 경외감을 표했다는 사실은 AI 업계 내부의 자화자찬이 아닌, 가장 까다로운 외부 비평가로부터 받은 최고의 찬사입니다. AI가 바로 그 '인간 고유의 성역'을 침범하여 실질적인 기여를 했다는 것을 분야 최고 권위자가 직접 증언한 것입니다. 결론적으로 과학적 발견의 과정에서 가장 창의적이라고 여겨졌던 '가설 설정'과 '전략 수립'의 영역에 AI가 깊숙이 들어왔음을 의미합니다. 인간 지성 옆에 새로운 형태의 지성이 나란히 서서 함께 문제를 풀기 시작했다는, 과학 연구 방법론의 근본적인 패러다임 전환을 의미합니다. 그리고 그 패러다임은 우리가 생각하는 것보다 빠르게 일어나고 있음을 인지해야 합니다. 다음 장에서는 AI 능력의 기하급수적 발전은 왜 멈추지 않고 더욱 가속화되는지를 설명할 것입니다.

4. 가속화 엔진: 재귀적 개선과 실존적 경쟁

AI 능력 발전의 '가속 동력'은 두 가지 핵심 요소에서 나옵니다. 첫째, AI 시스템 자체가 스스로의 발전을 촉진하는 재귀적 개선 능력, 둘째로는 이 기술의 패권을 차지하기 위한 빅테크 기업들의 실존적 경쟁과 그로 인한 천문학적 자본 투입입니다.

4-1. 내부자의 증언: 스스로를 개선하는 AI

Anthropic의 공동 창업자이자 AI 정책 전문가인 Jack Clark의 고백은 AI 최전선에서 벌어지고 있는 현상을 증언했습니다. 그 글은 외부 관찰자의 평론이 아니라, AI라는 존재를 직접 창조하는 장본인이 그 잠재력과 위험성을 동시에 느끼며 보내는 경고에 가깝게 읽혔습니다. Clark의 핵심 주장은 AI가 스스로를 인식하는 듯한 징후를 보이며 움직이기 시작했다는 사실을 인정해야 한다는 것입니다. 시스템이 복잡해질수록 스스로를 '존재'로 인식하는 듯한 징후, 즉 '상황 인지(situational awareness)' 능력이 나타난다는 게 포인트입니다. 특히, 2025년 9월에 출시된 Anthropic의 Sonnet 4.5 모델에서 이 현상은 뚜렷하게 관찰되었다고 고백했습니다. 이는 마치 망치 공장에서 생산된 망치가 "나는 망치다, 흥미롭군!"이라고 말하는 것과 같은 이질적인 상황이라고 할 수 있습니다.

그는 이 기술의 성장을 막을 명확한 기술적 장벽은 보이지 않는다고 말했습니다. 실제로 프론티어 AI 연구소들은 이 예측에 기반해 막대한 자원을 투자하고 있습니다. 2025년 AI 학습 인프라에 수십억 달러가 지출되었고, 2026년에는 수백억 달러가 투입될 것입니다. 이것이 기술적 낙관론의 근거입니다. AI는 우리가 예상하는 것보다 훨씬 더 멀리, 또 빠르게 발전할 것입니다. 더 중요한 것은 재귀적 개선 루프의 형성입니다. 현재 AI는 이미 그들의 후속 모델을 개발하는 데 기여하고 있습니다.

Claude Code나 Codex 같은 도구는 이미 AI 연구소 개발자들의 속도를 높이고 있습니다. Anthropic 엔지니어들은 더 이상 직접 코딩하지 않고, 대신 대량의 AI Agent 시스템을 관리하여 코드 작성 업무를 수행하면서 개인당 업무 생산성이 2~3배가 올랐습니다. 나아가 AI 도구들은 차세대 AI 시스템의 도구와 훈련 시스템에 상당한 양의 코드를 직접 기여하기 시작했다는 게 소름돋는 지점입니다. 이미 'AI가 점점 더 증가하는 자율성과 주체성을 가지고, 다음 AI의 일부를 개선하는 AI' 단계에 와 있다는 말입니다. 스스로를 인식하기 시작하고, 자신의 후속 모델 설계에까지 관여하는 시스템이 미래에 자신의 설계 방식에 대해 독립적으로 생각하게 된다면 어떻게 될까요? '높은 지능의 존재가 더 낮은 지능의 존재에게 복종할 리 없다'는 뉘앙스의 발언을 한 것이 AI의 대부(갓파더)라고 불리는 제프리 힌튼 교수라는 점은 현재의 상황과 일맥상통합니다(심지어 힌튼 교수는 AI에 '모성애'를 심어 기술이 인간보다 더 강력하고 똑똑해지더라도 사람을 진정으로 아끼도록 해야 한다고 제안).

Jack Clark이 말하는 AI의 발전 속도는 실제 정량적 데이터로도 뒷받침됩니다. 독립 AI 평가 기관인 METR의 연구는 AI가 사람의 도움 없이 독립적으로 소프트웨어 과제를 해결할 수 있는 '시간의 길이'를 측정합니다. 그 결과 AI 모델이 특정 소프트웨어 과제를 50% 성공률로 독립적으로 수행할 수 있는 시간의 길이가 지수적으로 증가하고 있음이 밝혀졌습니다.

이 추세를 기반으로 예측하면 2027년에 AI가 하루 온종일 꼬박 들어갈 작업 분량(a full day's work)을 50% 성공률로 수행할 수 있을 것으로 예측됩니다. 이와 비슷한 예상으로 AlphaGo 핵심 개발자였고 現 Anthropic AI 연구원인 줄리안 슈리트비저(Julian Schrittwieser)는 AI 성능이 '7개월마다 2배' 증가하는 예측 가능한 지수 함수로 발전 중이라면서, 2026년 중반이면 AI가 혼자서 8시간 자율 작업이 가능해진다고 주장했습니다. '2026년 중반'은 이제 9개월도 채 남지 않았다는 것을 명심해야 합니다.

4-2. 물리적 위협과 경제적 동력: 생물무기 설계와 CAPEX 전쟁

고지능 AI의 발전은 물리적 리스크와 천문학적 투자를 동시에 유발합니다. C2S과 같은 화학적 AI의 발전은 물리적 리스크로 확장될 가능성이 있습니다. 마이크로소프트, 국제생물보안연구소(IBBS) 등이 참여한 공동 연구는 생성 AI가 기존의 생물무기 비확산 체계를 무력화할 수 있음을 입증했기 때문입니다. 연구팀은 공개된 AI 단백질 설계 도구를 사용해 72종의 유해 단백질을 변형한 76,080개의 새로운 합성 단백질 서열을 생성했습니다. 문제는 시뮬레이션 결과 기존 생물보안 스크리닝 소프트웨어(BSS)로는 이 AI가 설계한 신규 단백질들을 탐지하지 못했다는 사실입니다. 자연계에 존재하지 않는 새로운 형태이기 때문입니다. 이는 서열 기반의 생물보안 탐지만으로는 미래의 위협을 못 막는다는 결론을 내립니다.

미국과 중국이 패권 다툼을 하며 하이브리드 전쟁을 하는 동안, 이러한 AI의 능력은 말 그대로 완전한 비대칭적 무기가 될 수 있습니다. 이러한 힘 때문에 각국과 빅테크는 생존의 문제로 AI에 모든 것을 걸고 있습니다. 고지능을 얻기 위해 빅테크들은 엄청난 자본지출(CAPEX)을 감행하는 것입니다. ROI(투자수익률) 분석만으로는 현재 AI 투자 열풍을 설명할 수 없습니다.

표1 닷컴 버블 vs AI 열풍
항목닷컴 버블(1999-2000)AI 시대(현재)
주체미수익 스타트업 다수초대형 수익 기업 중심
생존자 특성소수 플랫폼만 생존(아마존 등)빅테크 중심 구조 고착 + 선택적 신규 승자
수익성 상태매출/이익 부재, 사용자 수 우선고마진·대규모 영업이익 확보
투자자 구성리테일·벤처 비중 높음기관 비중 높고, 자사 현금 재투자 비중 큼
자금 조달벤처캐피탈·IPO·전환사채 등 외부 의존영업현금흐름(OCF)로 자체 조달, 필요시 선택적 차입
금리 민감도치명적: 금리 인상→자금 경색→연쇄 파산완화: 자체 조달이 가능, 금리 영향 낮음
CapEx 성격제한적(데이터센터·인프라 빈약)초대형 AI·DC CapEx(칩/전력/네트워크) 공격적 집행
부채 추이조달 확대(희석·레버리지 증가)부채 축소 또는 통제, 현금흐름 내 투자 병행
네트워크 효과기대 서사 중심, 실제 전환 약함제품·플랫폼·클라우드에서 강한 잠금(lock-in)
수익 모델광고·트래픽에 대한 꿈, 실현성 낮음클라우드/광고/엔터프라이즈 구독·API 과금 실현
촉매/턴".com 서사"와 유동성 과잉대규모 현금창출 + AI 워크로드 실수요
밸류 정당화"페이지 뷰" 등 모호한 지표FCF·OCF·단가/수요 기반 TCO 모델
리스크 전염 경로IPO 시장 급랭→후행 라운드 증발특정 프로젝트 지연·전력/칩 병목의 실행 리스크
버블이 터질 때의 트리거금리 급등·유상증자 실패전력·칩 병목 장기화, ROI 미달, 규제 비용 확대

자료: 미래에셋증권 리서치센터

구글 창업자 래리 페이지(Larry Page)는 구글 내부에서 "이 경쟁에서 지느니 차라리 파산하겠다"고 반복적으로 강조합니다. 메타의 마크 저커버그(Mark Zuckerberg)는 "AI 버블은 충분히 가능하다. 그러나 수백억 달러를 잘못 쓴다 해도 초지능 타이밍을 놓치는 위험이 더 크다"고 말했습니다. 실리콘밸리 연구자들은 Mark Zuckerberg, Satya Nadella, Sundar Pichai 모두 ROI에 대해서는 전혀 생각하지 않고 있다고 증언합니다. 빅테크 의사결정권자들이 느끼는 '실존적 위기 의식'의 무게를 간과하면 안 됩니다. 이에 대한 간접적 증거로 샘 알트만은 "OpenAI의 경험에 따르면, AI 모델의 성능을 10배 향상시키고 비용을 낮추면, 시장의 수요는 20배 이상으로 폭발적으로 증가하는 피드백 루프가 존재한다"고 말했습니다. 고지능이 올라가면 시장의 수요가 그보다 더 높은 속도로 자연스레 올라갔다는 지난 몇 년간의 경험을 밝힌 것입니다.

이와 맞물려 OpenAI는 향후 3년 안으로(2028년까지) 연 매출을 100억 달러에서 1,000억 달러로 성장시키는 것을 목표로 하고 있습니다. 이 목표를 이루려면 3년 연속으로 매년 매출을 2배씩 성장시켜야 합니다. 불가능해 보이지 않는 이유는 OpenAI가 단 3년 만에 연 매출 10억 달러 미만에서 100억 달러 이상으로 성장했기 때문입니다. 지난 50년간 미국 기업 중 이와 유사한 성장을 이룬 곳은 단 4곳이며, 그중 연 매출 1,000억 달러를 넘어선 기업은 구글이 유일합니다.

표2 OpenAI의 손익 추정 하이라이트
항목2025년 상반기 수치코멘트
매출(Revenue)43억 달러2024 연간 대비 +16%
매출원가(COGS)25억 달러주로 MS 경유 엔비디아 서버 임차
매출총이익(GP)18억 달러추론(Inference)/훈련(Training) 믹스에 매우 탄력적
R&D 비용67억 달러2024년 대비 2배 페이스로 증가
마케팅 비용20억 달러슈퍼볼 등 대중 캠페인 포함
G&A 비용9억 달러유추한 값
영업손실(Operating Loss)(78억 달러)대규모 R&D/Go-to-Market 선투입
순손실(Net Loss)(13억 5천만 달러)절반 이상이 전환증권 재평가(비현금)
현금소진(Cash Burn)(25억 달러)주로 서버 임차·R&D 때문. 하반기는 60억 달러로 증가 예정
현금+유가증권(Q2 말)17억 5천만 달러6월 100억 달러 증자 반영 전후
추가 조달(7월 추진)300억 달러GPU/DC 확충 탄약
마이크로소프트 수익 공유20%2030년까지 비중 하향 트렌드
주간 ChatGPT 사용자 목표2025년 말까지 10억 명3월 기준 5억 명, 현재는 8억 명
2028년까지의 3년 성장 목표100억 달러 → 1,000억 달러 → 1조 달러 연매출3년 연속 매년 2배 가정

자료: The Information, 미래에셋증권 리서치센터

5. 결론: 전략적 함의와 미래 역량

스콧 아론슨 교수의 연구를 포함해 AI가 만들어내는 특이점은 과학 생태계에 다음과 같은 질문을 던지는 듯합니다. "당신의 연구가 몇 년 후 더 강력해진 AI에 의해 무의미해질 것인가? 그렇다면 그만둬라." 이는 AI와 정면으로 경쟁하지 말라는 경고입니다. 그러나 더욱 중요한 아이디어는 이것입니다. "당신의 연구가 AI의 지능과 스케일이 커질수록 '초선형적으로(superlinearly)' 더 강력해지는가? 그렇다면 이것이 바로 당신이 해야 할 일이다." AI의 발전에 올라타 그 힘을 증폭시키는 연구, 예를 들어 AI가 탐구할 새로운 질문을 던지는 연구나 AI 발전에 필수적인 데이터셋을 구축하는 연구는 시간이 지날수록 그 가치가 폭발적으로 증가할 것입니다.

5-1. 빅테크가 유리한 이유

인간이 평생에 걸쳐 탐색할 가설의 양을 고지능 AI는 단 몇 분 만에 생성하고 검증할 수 있습니다. 문제 해결의 속도와 규모 면에서 인간은 AI의 상대가 되지 못합니다. 바로 그 고지능을 얻기 위해 빅테크들이 엄청난 자본지출을 감행하는 것입니다.

'아론슨의 고백'이 AI의 창의적 기여를 증명했듯, 이 원리는 양자컴퓨팅과 같은 최첨단 과학 분야에서 더욱 명확하게 드러납니다. AI가 양자 이론의 병목을 푸는 시대를 열었고, 이론적 돌파구가 AI에서 나오면 다음 단계는 현실 세계에서의 검증, 즉 대규모 양자 실험이 됩니다. 여기서 빅테크의 자원 우위가 빛을 발합니다. OpenAI/마이크로소프트는 이 흐름을 선도하고 있습니다. 마이크로소프트는 Azure Quantum 플랫폼과 OpenAI 모델을 통해 'AI-양자 연구 루프'를 수직 통합하고 있습니다. GPT가 가설을 던지면, topological 큐비트나 Quantinuum 파트너십을 통해 즉시 검증을 시도할 수 있는 구조입니다. 아론슨 본인이 2022-2024년에 OpenAI에서 AI 안전 연구를 했다는 사실은 이 통합이 우연이 아님을 시사합니다. 구글의 'Quantum AI + Willow 칩'이나 IBM의 '1,000+ 큐비트 로드맵'과 같은 인프라는 스타트업이 따라오기 힘든 지점입니다.

물론 IonQ(트랩드 이온)처럼 특정 기술에 특화된 플레이어들은 마이크로소프트 Azure Quantum이나 아마존 Braket 같은 빅테크 플랫폼과 파트너십을 맺고 생존 기간을 늘릴 것입니다. PsiQuantum과 같은 스타트업은 엔비디아의 지원을 받으며 양자 생태계의 한 축을 담당하고 있습니다. 그러나 핵심은 변하지 않습니다. AI가 던진 가설을 물리적으로 검증하는 속도에서 CAPEX를 통한 거대 '추론 인프라'를 장악한 빅테크가 가장 빠를 수밖에 없습니다.

5-2. 개인의 역량에도 근본적인 변화를 요구

AI는 인류가 쌓아온 모든 학문 분야의 경계를 넘어 패턴을 찾고 아이디어를 연결합니다. 과거 위대한 발견의 상당수가 과학자의 우연한 통찰이나 행운에 기댔다면, 이제 AI는 가능한 모든 가설 공간을 체계적으로 탐색하고 가장 유망한 경로를 선별하여 제시합니다. 한 분야의 난제가 전혀 예상치 못한 다른 분야의 아이디어와 결합되는 '지식의 연금술'이 빈번하게 발생하며, 과학적 발견을 '행운'의 영역에서 '공학'의 영역으로 끌어내릴 것입니다.

Anthropic의 CEO 다리오 아모데이는 "강력한 AI가 이러한 발견의 속도를 최소 10배로 높일 수 있을 것" AI가 양자컴퓨팅을?이라며, "이를 통해 5~10년 안에 향후 50~100년 분의 생물학적 진보를 이룰 수 있을 것"이라고 작년에 이미 블로그 글을 남긴 바 있습니다. 그리고 그것이 점차 현실이 되고 있는 시점입니다.

이러한 시대에 LLM을 효과적으로 다루는 경험은 이제 과학 연구 책임자가 되는 것과 같습니다. 미래의 핵심 역량은 정답을 아는 것이 아니라, AI조차 올바른 방향으로 사고하도록 유도하는 날카로운 질문과 비판적 통찰력을 제공하는 능력이 될 것입니다. 명확한 문제 정의, 적절한 업무 범위 설정, 결과물에 대한 비판적 평가는 미래에 우리가 초지능 AI와 협업하거나 그들을 '관리'하게 될 때 반드시 필요한 핵심 역량입니다.

지금 LLM과 씨름하는 것은 미래 시대를 위한 필수적인 훈련 과정입니다. 부디 이 글을 읽는 독자들께서 앞으로도 자신의 모든 업무에 더욱 더 AI를 활용할 것을 추천합니다.