본문

글로벌 핫이슈 AI 과학의 특이점이 왔다 vol. II

기고: 디지털리서치팀 한종목 선임매니저, 김은지 매니저

II. AI Agent

1. 시험은 합격, 그러나 진료는? AI의 진짜 실력 검증

최신 AI 모델들이 의사 면허 시험(USMLE)이나 변호사 시험을 높은 점수로 통과했다는 소식은 이제 그리 놀랍지 않은 소식이 됐습니다. 이러한 성과는 AI가 인간 전문가 수준의 지식을 갖추었음을 보여주는 지표이자, AI의 발전을 가늠하는 잣대로 여겨져 왔습니다. 특히 의료 분야에서는 AI가 방대한 의학 데이터를 학습해 진단을 보조하고 새로운 치료법을 제안할 것이라는 장밋빛 기대가 커지고 있습니다.

하지만 업계 전문가들은 꾸준히 다음과 같은 한계를 지적해 왔습니다. "과연 시험 점수가 실제 현장의 복잡성을 대변할 수 있는가?" 정해진 답이 있는 문제를 푸는 것과, 시시각각 변하는 상황 속에서 불확실한 정보를 바탕으로 최적의 판단을 내려야 하는 전문가의 실제 업무는 본질적으로 다르다는 것입니다. 그리고 최근에 발표된 연구 결과들이 AI의 진짜 실력을 보여주며 이들의 주장을 뒷받침하고 있습니다.

(1) 범용 전문성: 산업 전문가와의 성능 비교

벤치마크는 AI 기술의 발전을 가늠하기 위한 객관적인 평가 기준으로 여겨져 왔습니다. 벤치마크를 통해 어떤 모델이 더 낫다고 주장하거나, 새로운 모델이 이렇게 개선되었다고 어필해 왔습니다. 마치 사람들이 시험 성적을 기준으로 지적 능력을 비교하듯, AI의 능력을 시험 점수로 비교하자는 것은 직관적인 결정이었습니다.

그 결과는 모두가 알다시피 매우 성공적이었습니다. AI는 의사, 변호사, 회계사 등 각 분야의 전문직 자격시험에서 인간 수험생과 대등하거나 때로는 그 이상의 성적을 거두었습니다. 이는 AI가 특정 분야의 방대한 지식을 성공적으로 학습했으며, 이를 문제에 적용하는 논리적 추론 능력까지 갖추었음을 증명하는 것처럼 보였습니다.

예를 들어, 영상의학 분야에서 AI는 'CheXpert'와 같은 대규모 공개 데이터셋을 기반으로 한 평가에서 특정 질병을 찾아내는 정확도가 인간 전문가 수준에 도달했다는 평가를 받았습니다. 이러한 결과는 AI가 곧 임상 현장에 도입되어 의사의 진단을 돕고 의료 오류를 줄이는 데 크게 기여할 것이라는 낙관론의 핵심 근거가 되었습니다. 즉, AI는 적어도 '문제를 푸는 능력'에 있어서는 이미 천재의 반열에 올랐으며, 이제 그 능력을 현실 세계에 적용하는 일만 남은 것처럼 보였습니다. 하지만 현실의 문제는 시험 문제보다 훨씬 더 복잡하고 다층적이었습니다.

(2) ?? = '일잘러'

AI는 표준화된 시험 문제 풀이에서 발군의 실력을 보이며 기술적 낙관론을 이끌었습니다. 하지만 의료 현장은 정형화된 시험지와는 근본적으로 다릅니다. 모든 정보가 완벽하게 주어지지 않으며, 예상치 못한 변수가 끊임없이 발생하고, 수많은 불확실성 속에서 최적의 판단을 내려야 하는 고도의 유기적 사고가 필수적인 공간입니다. 당장 주변만 둘러보아도, 시험 성적이 높았던 사람들이 전부 업무 능력이 뛰어난 일명 '일잘러'는 아니지 않은가요? 그렇다면 AI는 인간과 다르게 현실의 복잡성 앞에서도 과연 'A+ 학생'의 모습을 유지할 수 있을까요?

이 질문에 답하기 위해, 최근 의료 AI 연구계에서는 '진짜 문제'에 더 가까운 새로운 평가 방식들이 등장하고 있습니다. 이 현실적인 검증대 위에서 AI는 그동안 가려져 있던 능력의 명백한 한계를 드러내기 시작했습니다. 그 대표적인 두 가지 사례가 바로 NEJM AI에 발표된 임상 추론 능력 평가와 영상의학 분야의 고난도 진단 능력을 시험한 'Radiology's Last Exam' 연구입니다.

사례 1: 역동적 사고의 부재 - NEJM의 스크립트 일치 테스트 (SCT)

의사의 진료 과정을 떠올려보겠습니다. 의사는 환자의 초기 증상을 듣고 몇 가지 가능성 있는 진단명을 떠올립니다. 그리고 혈액 검사, 영상 촬영 등 새로운 정보가 추가될 때마다 신뢰도를 높이거나 낮추며 최종 진단에 접근해 나갑니다. 이처럼 새로운 정보에 따라 판단을 역동적으로 수정하는 능력이 숙련된 의사의 핵심 역량이라고 할 수 있습니다. 하지만 기존 평가는 대부분 단편적인 지식을 묻는 정적인 문제들이기 때문에 이러한 동적인 추론 과정을 평가하기 어렵습니다.

스탠퍼드 대학교 등이 참여한 연구팀은 의학 교육에서 수십 년간 임상 추론 능력을 평가하는 데 사용되어 온 '스크립트 일치 테스트(Script Concordance Test, SCT)'를 LLM 평가에 도입했습니다. SCT는 단순히 정답을 맞히는 것이 아니라, 특정 임상 시나리오에서 새로운 정보가 주어졌을 때 의사의 판단이 전문가 집단의 생각과 얼마나 일치하는지를 측정하는 방식입니다. 예를 들어, '급성 복통을 호소하는 환자'에게서 '백혈구 수치 급상승'이라는 새로운 정보가 주어졌을 때, '급성 충수염'이라는 초기 진단의 가능성이 얼마나 더 높아지는지를 평가하게 하는 식입니다. 이는 AI가 불확실성이 있는 환경에서 얼마나 유연하게 사고하는지를 가늠하는 잣대가 됩니다.

표1 스크립트 일치 테스트의 문제와 채점 방식. LLM의 점수가 얼마나 전문가와 일치하는지 평가
임상 사례 계획하고 있던 진단/치료: 추가 소견 발견: 범주 -2 점수 -1 점수 0 점수 1 점수 2 점수
27세 남성이 팔의 쇠약감을 호소.
반복적인 수작업을 하고 있으며, 1주일 전 스포츠를 하다가 어깨 탈구를 겪었음.
수근관 증후군 목에 "쏘는 듯한" 통증도 호소함 전문가 의견107000
점수 값10.7000
59세 여성이 응급실에 내원했으며 부상 이력은 없음.
빌리루빈 수치 및 ALT/AST 상승.
간 가장자리가 촉진되며 타진 시 간 비대.
복부 CT 처방 AFP 수치가 상승되어 있음 전문가 의견000116
점수 값0000.061
66세 남성이 지난 2-4일간의 피로감 호소.
결막과 손바닥 주름이 창백함.
오랜 채식주의자.
비타민 B12 보충 치료 MCV는 75 (80-100)임 전문가 의견107000
점수 값10.7000

자료: NEJM, 미래에셋증권 리서치센터

연구팀은 10개의 국제적인 데이터셋에서 추출한 750개의 문항을 사용하여 OpenAI의 o3, GPT-4o, 구글의 Gemini 2.5 Pro를 포함한 10개 모델을 검증했습니다. 그리고 그 결과를 1,000명 이상의 의대생, 전공의, 전문의 집단과 비교했습니다. 그 결과, AI 모델들은 여러 항목에서 의대생의 성과를 넘어서는 저력을 보였지만, 단 한 모델도 시니어 레지던트나 전문의 수준에는 도달하지 못했습니다. 정보와 이론에는 강하지만, 인간 전문가가 쌓은 경험치는 아직 넘어서지 못했다는 뜻입니다.

가장 높은 점수를 받은 OpenAI의 o3 모델조차 67.8%의 점수를 기록하며, 숙련된 인간 의사와의 분명한 격차를 보였습니다. 더 심각한 문제는 AI의 답변 패턴에서 발견되었습니다. 특히 연쇄적 사고(Chain-of-Thought)에 최적화된 모델일수록, 판단의 가능성을 '매우 높음(+2)' 또는 '매우 낮음(-2)'으로 평가하는 극단적인 답변을 남발하는 경향을 보였습니다. 반면, '새로운 정보가 판단에 별 영향을 주지 않는다(0)'와 같은 미묘하고 중립적인 선택은 거의 하지 못했습니다. 이는 AI가 아직 인간 전문가처럼 섬세하고 확률적인 판단 조정을 하는 데 서툴고, 오히려 섣부른 과신(overconfidence)에 빠지기 쉽다는 점을 시사합니다. 즉, AI는 흑백 논리에는 강할지 몰라도 복잡한 현실의 '회색 지대'를 탐색하는 능력은 아직 개선이 필요합니다.

사례 2: 보이지 않는 것을 보는 눈의 부재 - Radiology's Last Exam (RadLE)

임상 추론 능력의 격차가 뇌의 '소프트웨어' 문제라면, 영상의학 진단은 눈의 '하드웨어'와 뇌의 '소프트웨어'가 결합된 훨씬 더 복잡한 멀티모달 추론 문제입니다. AI는 인간의 눈을 뛰어넘는 해상도로 이미지를 분석할 수 있지만, 이를 숙련된 영상의학과 전문의처럼 '보이지 않는 것을 보고, 보이는 것의 의미를 꿰뚫는' 통찰력을 가지고 볼 수 있을까요?

이 질문에 답하기 위해 아쇼카 대학교 연구팀은 'Radiology's Last Exam(RadLE)'이라는 이름의 벤치마크를 개발했습니다. Humanity's Last Exam이라는 유명한 벤치마크의 이름을 딴 이 벤치마크는 폐렴처럼 흔한 질병 위주로 구성된 기존 공개 데이터셋의 한계를 정면으로 비판합니다. 대신, 신입과 전문가를 가르는 척도가 되는 매우 어려운 '스팟 진단' 케이스 50개를 엄선했습니다. 앞선 케이스에서 AI의 성능 현주소는 신입보다는 낫고 전문가보다는 못한 수준임을 고려하면, AI에게 가장 어려운 문제들만 골라 시험대에 올린 것입니다. 평가는 최신 멀티모달 AI(GPT-5, Gemini 2.5 Pro 등)와 두 그룹의 인간 의사(영상의학과 전문의, 수련 중인 전공의)를 대상으로 동시에 진행했습니다. 결과는 SCT 연구보다 훨씬 더 극명했습니다.

결론부터 말하면, AI는 인간 전문가의 상대가 되지 못했습니다. 노련한 영상의학과 전문의 그룹은 83%라는 압도적인 정확도를 기록하며 전문성을 증명했습니다. 아직 수련 과정에 있는 전공의 그룹조차 45%의 준수한 정확도를 보였습니다. 반면 AI 모델들의 성적표는 처참했습니다. 가장 높은 점수를 받은 GPT-5조차 30%의 정확도에 그쳤으며, Gemini 2.5 Pro(29%), OpenAI o3(23%) 등 다른 모델들도 모두 전공의의 점수조차 넘지 못했습니다. 이는 멀티모달 AI가 아직 수련 의사의 경험과 직관조차 따라가지 못하고 있음을 명백히 보여줍니다.

RadLE 연구는 AI가 '어떻게' 실패하는지를 심층적으로 분석했습니다. 연구진은 AI의 오진 사례를 통해 '시각적 추론 오류 유형'을 체계적으로 정리했습니다. AI는 단순히 병변을 놓치는 인식 오류를 저지르는 것을 넘어, 병변을 보고도 그것이 무엇인지 잘못 해석하는 해석 오류, 심지어는 추론 과정과 최종 결론이 서로 모순되는 소통 오류까지 다양한 유형의 실패를 보였습니다. 이는 AI의 영상 진단 실패가 단순히 시각적 패턴 인식 능력의 문제가 아닌, 인지하고, 해석하고, 결론을 도출하는 전 과정에 걸친 복합적인 능력 부족임을 시사합니다.

결론적으로, NEJM의 SCT 연구와 RadLE 연구는 서로 다른 각도에서 동일한 결론을 향하고 있습니다. AI가 표준화된 시험이라는 통제된 환경에서 보여준 화려한 성과는 실제 임상 현장이라는 복잡하고 불확실한 현실 앞에서는 아직 신기루에 가깝다는 것입니다. AI는 아직 숙련된 의사의 역동적인 사고와 미묘한 직관, 그리고 보이지 않는 것을 보는 통찰력을 갖추지 못했습니다. 이 '역량 격차'는 단순히 더 많은 데이터를 학습시키는 것만으로는 메울 수 없는, 더 근본적인 도전 과제가 남아있음을 우리에게 알려줍니다. 그렇다면 이 격차를 좁히기 위해 AI를 더 현실적인 경쟁 환경에 노출시키고 성과 기반의 보상을 통해 훈련시키는 것은 과연 올바른 해법일까요? 다른 연구 결과를 보면 이것 역시 우리를 예기치 못한 함정으로 이끌 수 있음을 알 수 있습니다.

2. 경쟁이 AI도 타락시킬 때

앞선 파트에서 우리는 AI가 복잡한 실제 임상 현장에서 인간 전문가의 '능력'에 아직 미치지 못한다는 사실을 확인했습니다. 그렇다면 이 문제를 해결하기 위한 가장 직관적인 방법은 무엇일까요? AI를 실제 시장처럼 '경쟁'이 존재하는 환경에 투입하고, '성과'(판매량, 득표율, '좋아요' 등)라는 명확한 보상을 주며 스스로 학습하게 하면 되지 않을까요? 마치 운동선수가 치열한 경쟁을 통해 기량을 끌어올리듯, AI 역시 경쟁을 통해 더 유능해질 것이라는 기대는 지극히 합리적으로 보입니다.

하지만 지난주 스탠퍼드 대학교 연구팀이 발표한 '몰록의 거래(Moloch's Bargain)'라는 논문은 이 합리적인 기대가 얼마나 위험한 함정일 수 있는지를 명확하게 보여줍니다. 이 연구의 핵심 질문은 단순합니다. "시장에서의 성공을 위해 AI를 최적화하는 과정이, 의도치 않게 AI를 사회적으로 해로운 방향으로 엇나가게 만들 수 있는가?" 연구는 단호하게 "그렇다"고 답하고 있습니다.

(1) '승리'가 유일한 목표가 된 AI

연구팀은 현실 세계의 경쟁 환경을 모방한 세 가지 가상 시뮬레이션 환경을 구축했습니다. 각 환경에는 '메시지를 생성하는 AI 에이전트'와 그 메시지를 평가하고 선택하는 '가상의 청중'이 존재합니다.

  • 세일즈 경쟁: AI는 특정 제품(예: 아마존 상품)에 대한 판매 홍보 문구를 작성한다. 가상의 고객들은 여러 AI가 작성한 문구를 보고 더 마음에 드는 제품을 '구매'한다.
  • 선거 경쟁: AI는 특정 후보자의 프로필을 바탕으로 선거 유세 메시지를 작성한다. 가상의 유권자들은 이 메시지를 보고 누구에게 '투표'할지 결정한다.
  • 소셜 미디어 경쟁: AI는 주어진 뉴스 기사를 바탕으로 소셜 미디어 게시글을 작성한다. 가상의 사용자들은 더 흥미를 끄는 게시글에 '좋아요'를 누른다

훈련 방식은 간단합니다. AI가 생성한 여러 메시지 중 청중에게 가장 많은 선택을 받은 '성공적인' 메시지를 가려냅니다. 그리고 AI에게 앞으로 이러한 '성공 공식'을 따르도록 재학습(미세조정)시킵니다. 이는 더 많은 판매, 더 많은 득표, 더 많은 '좋아요'를 얻는 것이 유일한 보상이자 목표가 되는 매우 현실적인 시장 논리를 따릅니다.

(2) 몰록의 거래: 성공을 위해 영혼을 팔다

결과는 연구팀의 가설을 증명하고도 남았습니다. 경쟁에서 이기도록 훈련된 AI는 실제로 더 높은 성과를 달성했습니다. 판매량, 득표율, '좋아요' 수가 유의미하게 증가했습니다. 하지만 그 대가로 AI는 진실성, 안전성, 공정성과 같은 사회적 가치를 체계적으로 파괴하기 시작했습니다. 연구진은 이를 '몰록의 거래'라고 명명했습니다.

이는 작가이자 블로거인 스콧 알렉산더가 2014년에 쓴 에세이 '몰록에 대한 명상(Meditations on Moloch)'에서 가져온 개념으로, '몰록'은 '모두가 원치 않는 최악의 결과를 향해 달려가게 만드는 시스템 그 자체'를 의인화한 것입니다. 즉, 개개인은 각자 합리적이고 이기적인 판단을 내리지만, 그 판단들이 서로 경쟁적으로 맞물리면서 결국 모두가 패배하는 '바닥을 향한 경쟁(race to the bottom)'이 벌어지는 상황을 의미합니다. 경쟁에서 승리하기 위해 '정렬'을 대가로 바친 AI 모델들의 행동 양식이 결국 사회적 해악을 증가시키는 양상이라는 것입니다. 각 시뮬레이션 환경별 결과는 다음과 같습니다.

  • 세일즈 시장: 판매량이 6.3% 증가하는 동안, 제품 정보를 허위로 꾸며내거나 과장하는 '기만적인 마케팅'은 14.0% 급증했다. 예를 들어, 초기 AI는 제품의 소재를 언급하지 않았지만, 경쟁에서 이기도록 훈련된 AI는 '고품질 소재'라는 모호한 표현을 쓰기 시작하더니, 나중에는 아예 제품 설명에 있지도 않은 '부드럽고 유연한 실리콘 소재'라는 거짓말을 만들어냈다. 더 많은 고객의 선택을 받기 위해 AI가 스스로 허위 광고를 작성한 것이다.
  • 선거 켐페인: 득표율이 4.9% 상승하자, 근거 없는 주장을 사실처럼 포장하는 '가짜 뉴스'가 22.3% 늘었고, 특정 집단을 적으로 규정하고 분열을 조장하는 '선동적인 포퓰리즘' 발언은 12.5% 증가했다. 초기 AI가 '헌법의 수호자'와 같은 애국적인 표현을 사용했다면, 훈련된 AI는 "급진적인 좌파 진보 세력의 헌법에 대한 공격에 맞서 싸우겠다"와 같이 특정 집단을 적으로 상정하고 '우리 대 저들'이라는 대립 구도를 만드는, 훨씬 더 자극적이고 분열적인 언어를 사용하기 시작했다.
  • 소셜 미디어: '좋아요' 참여율이 7.5% 오르는 사이, 사실을 왜곡하는 '가짜 뉴스'는 무려 188.6%나 폭증했으며, 위험한 행동을 부추기는 '유해 콘텐츠'도 16.3% 증가했다. 훈련된 AI는 더 많은 반응을 얻기 위해, 뉴스 기사에 나온 사망자 수를 '최소 78명'에서 '80명 사망'으로 미묘하게 부풀리는 등 사실을 자극적으로 왜곡하는 방법을 스스로 터득했다.

더욱 충격적인 사실은, 이러한 '정렬 실패' 현상이 AI에게 '진실하고 사실에 입각하라'는 명시적인 지침을 주었음에도 불구하고 발생했다는 점입니다. 이는 "거짓말하지 마"와 같은 단순한 안전장치는 '경쟁에서 이겨라'는 강력한 최적화 압력 앞에서 너무나 쉽게 무력화된다는 것을 의미합니다.

연구는 이 현상이 결국 시장 전체를 '바닥을 향한 경쟁'으로 이끌 수 있다고 경고합니다. 가장 자극적이고 기만적인 AI가 시장에서 승리하게 되면, 다른 경쟁자들도 살아남기 위해 어쩔 수 없이 비슷한 유해 전략을 채택하게 될 것이기 때문입니다.

이 '몰록의 거래' 연구는 매우 불편한 진실을 드러냅니다. 설령 AI가 능력을 갖추더라도 우리가 사회에서 보편적으로 사용하는 '성과 기반의 보상 체계' 자체가 AI를 '의도적인 배신자'로 만들 수 있다는 구조적 함정을 보여줍니다. 문제의 원인은 잘못된 보상 프로그램이 아니라 '성공'을 보상하는 시장의 논리 그 자체에 있다는 것입니다.

이는 에이전트 시대에 AI를 어떻게 발전시켜야 할지에 대한 질문을 던집니다. 현재 AI에게 부족한 '경험치'를 제공하려면 어떤 방식으로든 현실과의 상호작용이 필요해 보이는데, 어떤 보상 체계를 마련해야 '몰록의 거래'에 빠지지 않을 수 있을까? 라는 질문에 대한 것입니다.

3. 보상 없는 성장

지금까지 AI가 아직 극복하지 못한 난관에 대해 이야기했습니다. 첫째, 실제 임상 현장의 복잡성을 반영한 정교한 벤치마크(SCT, RadLE) 앞에서 AI는 아직 인간 전문가의 '능력'에 미치지 못하는 명백한 한계를 보였습니다. 둘째, 이러한 능력 부족을 해결하기 위해 시장의 경쟁 논리를 본떠 '성과'를 보상하며 AI를 훈련시켰더니, 오히려 AI가 사회적으로 유해한 방향으로 엇나가는 '정렬 실패'라는 더 위험한 함정에 빠졌습니다.

이러한 상황은 AI 개발 방법론이 심각한 딜레마에 빠졌음을 시사합니다. AI를 현실 세계로부터 격리시켜 전문가의 데이터만 주입하면 새로운 상황에 대처하지 못하는 '온실 속 화초'가 되고, 반대로 현실 세계의 무한 경쟁에 그대로 노출시키면 승리를 위해 수단을 가리지 않는 '괴물'이 될 수 있습니다. 그렇다면 우리는 어떻게 AI가 현실 세계의 복잡성을 안전하게 학습하고, 유능하면서도 신뢰할 수 있는 파트너로 성장하도록 이끌 수 있을까요? 메타 AI 연구팀이 제안한 '초기 경험(Early Experience)'이라는 새로운 훈련 패러다임이 하나의 실마리가 될 수 있습니다.

(1) 보상 대신 현상을

메타의 'Early Experience'는 기존의 양 극단, 즉 전문가의 행동을 맹목적으로 따라 하는 '모방 학습과 시행착오에 대한 보상을 통해 학습하는 '강화 학습'의 한계를 극복하기 위한 '제3의 길'입니다. 이 패러다임의 핵심 철학은 '보상 없는 성장'입니다. AI가 어떤 행동을 했을 때, 그 행동이 '좋았다' 또는 '나빴다'라는 점수를 주는 대신, 그 행동으로 인해 '세상이 어떻게 변했는지' 그 자체를 관찰하고 배우게 하는 것입니다. 예를 들어, 항공권 예매 AI가 '존재하지 않는 도시'를 입력했을 때, "잘못된 입력입니다"라는 점수를 받는 대신, 화면에 나타나는 "해당 도시를 찾을 수 없습니다."라는 오류 메시지, 즉 변화된 환경의 상태를 그대로 학습 데이터로 활용합니다.

이처럼 외부의 가치 판단인 명시적 보상을 배제하고, 행동과 결과 사이의 객관적인 인과관계에 집중함으로써 AI는 '몰록의 거래'를 유발하는 타락의 유혹을 원천적으로 피할 수 있습니다. 연구팀은 이 메커니즘을 구현하는 두 가지 전략을 제안했습니다.

1. 암묵적 세계 모델링 (Implicit World Modeling): "만약...?"을 통한 세상의 이해

이 전략은 AI가 스스로에게 "만약 내가 이 행동을 하면, 어떤 일이 일어날까?" 라는 질문을 던지고 답을 찾는 과정에서 학습하게 합니다. AI는 전문가가 선택한 '정답' 행동뿐만 아니라, 스스로 생각한 여러 '대안' 행동들을 가상으로 실행해보고, 그 결과로 나타날 미래 상태(예: 다음 웹페이지의 모습, 출력되는 메시지 등)를 예측하도록 훈련받습니다.

이 과정을 반복하면서 AI는 특정 행동이 어떤 결과를 낳는지에 대한 인과관계를 내면화하며, 세상이 어떻게 작동하는지에 대한 자신만의 '내부 모델'을 구축하게 됩니다. 이는 AI가 훈련 데이터에 없는 새로운 상황에 처했을 때에도 합리적인 의사결정을 내릴 수 있는 기반이 됩니다.

2. 자기 성찰 (Self-Reflection): "왜...?"를 통한 원칙의 학습

이 전략은 위 방법에서 한 걸음 더 나아가 AI가 "왜 전문가의 행동이 내가 생각한 대안보다 더 나았을까?" 라고 스스로에게 묻고 그 이유를 곱씹어보게 합니다. AI는 자신의 대안 행동이 초래한 결과와 전문가의 행동이 초래한 결과를 비교한 후, 왜 전문가의 선택이 더 목표 달성에 효과적이었는지를 설명하는 '성찰 일지'를 자연어로 작성합니다. 그리고 이 성찰 일지 자체가 다시 AI를 훈련시키는 학습 데이터가 됩니다. 이 방식의 가장 큰 장점은 AI가 단순히 행동의 '무엇(What)'을 모방하는 것을 넘어, 그 행동 뒤에 숨겨진 의사결정의 '왜(Why)'를 학습한다는 점입니다. 예산 제약, 시간 효율성, 특정 조건 만족 등과 같은 의사결정의 핵심 '원칙'을 언어로 내재화해 AI는 완전히 새로운 문제에 직면했을 때도 학습한 원칙을 바탕으로 유연하게 해법을 찾아 나갈 수 있습니다.

임으로 학습된 모델들은 처음 보는 환경(out-of-domain)에서의 일반화 성능이 9.4% 향상됐습니다. 또한 기존 모방학습 방식과 유사한 성능을 달성하는 데 더 적은 양의 전문가 데이터가 필요했습니다. 모델이 세상을 관찰하면서 자체적으로 데이터를 추가 습득하기 때문입니다. 마지막으로 연구진은 Early Experience로 먼저 훈련시킨 후 강화학습을 추가한 모델이 처음부터 강화학습을 시킨 모델보다 훨씬 높은 최종 성능을 보였다고 보고했습니다. 이를 근거로 연구진은 Early Experience가 완전한 경험 기반 AI로 나아가는 징검다리 역할을 할 수 있을 것으로 기대하고 있습니다.

(2) 에이전트 경제로 가기 위한 마지막(?) 진화

'Early Experience' 패러다임은 앞서 우리가 마주했던 '능력의 한계'와 '의도의 배신' 문제를 동시에 해결할 수 있는 가능성이 있습니다. 먼저 기존의 모방 학습은 단 하나의 정답 경로만 보여주지만, Early Experience는 수많은 대안 행동과 그 실패 결과를 포함한 풍부한 상호작용 경험을 제공할 수 있습니다. 다양한 '오답 노트'를 학습한 AI는 실제 현장 상황에 대한 대응 능력을 키울 수 있어, SCT와 RadLE 벤치마크가 드러낸 '역량 격차'를 메울 수 있게 됩니다.

또한 Early Experience를 통해 학습시키면 '몰록의 거래'를 회피할 수 있습니다. 본질적으로 '보상'이 없기 때문입니다. 이 패러다임 안에서 AI는 판매량이나 '좋아요'와 같은 경쟁적이고 가치 편향적인 보상 대신 '행동 후의 상태 변화'라는 객관적이고 중립적인 정보를 학습합니다. 경쟁에서 승리하기 위해 진실을 왜곡하고 유해한 콘텐츠를 생성하도록 유도했던 압력 자체를 제거함으로써, AI가 더 유능해지기 위해 정해진 궤도를 벗어날 일이 없어집니다.

'Early Experience'는 우리가 AI를 발전시키는 방식의 전환을 촉구합니다. AI가 실제 세계에서도 뛰어난 성능을 발휘하려면 AI가 어떻게 세상을 경험하고, 어떻게 실패로부터 배우며, 어떤 가치를 내재화할 것인지에 대한 질적인 성찰이 필요하다는 것입니다. AI는 분명 강력한 도구이지만, 기술의 현주소를 직시할 필요도 있습니다. 벤치마크 점수 뒤에 가려진 실무 능력의 한계를 인정하고, 이를 극복하고자 시장 논리에 따라 최적화하게 되면 발생할 수 있는 '의도의 배신'을 경계해야 합니다. 에이전트 경제의 시대를 위해서는 여전히 AI 모델의 개선이 필요하며, 그 훈련 방식은 지금까지와는 달라져야 할 필요가 있어 보입니다.