윤동하님의 댓글
윤동하좋은 내용 감사합니다
2022년 9월 테슬라가 자사의 휴머노이드 로봇 옵티머스를 처음 공개했을 때 투자자들의 반응은 회의적이었습니다. 다른 휴머노이드들이 백 덤블링을 할 정도로 뛰어난 제어 능력을 보여준 반면 테슬라의 옵티머스는 제대로 걷지도 못했기 때문입니다. 그러나 불과 1년 뒤 테슬라는 요가 자세를 취할 정도로 균형을 잡을 수 있는 옵티머스 영상을 공개했고 2023년 12월에는 쉽게 깨질 수 있는 계란을 옮기는 등 정밀한 제어 능력을 보여주었습니다. 2024년 2월에는 원격 조작으로 옵티머스가 빨래를 개는 영상을 공개되었고 5월에는 테슬라 공장에서 원격 조작이 아니라 자율적으로 배터리를 정리하고 잘못 놓인 배터리를 다시 놓는 모습까지 보여주었습니다.
테슬라 뿐만이 아닙니다. 다수의 휴머노이드 업체들이 하루가 다르게 업그레이드된 영상을 선보이고 있습니다. 미국 휴머노이드는 스타트업 피규어가 대표적입니다. 설립된 지 채 2년이 지나지 않은 피규어의 휴머노이드는 사람이 "먹을 것 없냐"고 묻자 사과를 건넵니다. 그리고 왜 사과를 주었냐고 묻자 "여기 있는 것 중 먹을 것이 사과 밖에 없어서"라고 답을 합니다. 중요한 것은 로봇이 주변을 인지하고 사람과 대화하는 과정 그리고 자연스럽게 사과를 건네는 동작 등이 원격 조작이 아니라 자율적으로 이루어졌다는 점입니다. 피규어는 오픈 AI, 엔비디아 등으로부터 26억 달러 가치로 펀딩을 받았고 BMW 공장에 투입될 예정입니다.
동시 다발적으로 쏟아지는 중국 휴머노이드 시연 영상도 놀라운 수준입니다. 중국 정부가 2025년부터 휴머노이드를 대량 양산하겠다고 밝힌 이후로 중국 휴머노이드 업체들이 앞다투어 기술을 시연하고 있습니다. 2024년 5월 중국 유니트리에서 공개한 G1은 사람이 발로 차도 균형을 유지하고 프라이팬으로 토스트를 굽는 등 다양한 동작을 구현할 수 있습니다.
휴머노이드의 성능이 빠르게 발전함에 따라 투자도 본격화되고 있습니다. 피규어, 유니트리 등 휴머노이드 업체뿐 아니라 하드웨어를 만들지 않고 데이터만 구축하는 피지컬 인텔리전스, 소프트웨어를 제공하는 스킬드 AI 등 다양한 기업들이 나타나고 있습니다.
과거의 휴머노이드는 상용화가 어려웠습니다. 사람의 형태를 한 휴머노이드는 다수의 관절이 필요한데 이를 컨트롤하는 액츄에이터 가격이 개당 수천만 원 수준이고 여기에 카메라 등 센서, 배터리 등이 추가되면 대당 원가가 수억 원으로 올라갑니다. 반면 로봇은 현실 세계와 물리 법칙에 대한 이해도가 낮고 정교한 제어가 어려웠기 때문에 기본적으로 제한된 환경에서 프로그래밍된 대로만 작업을 할 수 있었습니다.
휴머노이드에게 화장실 청소를 시킨다고 가정해 봅시다. 우선 화장실 환경과 청소에 필요한 도구, 예를 들어 무엇이 걸레인지 인지할 수 있어야 합니다. 사람은 걸레를 보면 바로 알지만 로봇에게 이는 컴퓨터 픽셀에 불과합니다. 현실 세계에서 걸레는 다양한 형태로 존재하기 때문에 어떤 것이 걸레인지를 하나하나 사전에 프로그래밍하는 것은 불가능에 가깝습니다. 주변 환경을 인지한 후에는 청소를 어떻게 할지 계획하고 수행해야 합니다. 이를 위해서는 청소라는 것이 무엇이고 청소를 하기 위해 주어진 조건에서 어떤 작업을 수행하는 것이 좋은 지 판단해야 합니다. 예를 들어 사람은 화장실 거울에 얼룩이 있을 때 걸레에 세제를 묻혀 적당한 강도로 닦으면 된다는 것을 알지만 로봇은 이러한 지식이 없습니다. 현실 세계에서는 변화하는 상황에 대한 적응력도 필요합니다. 갑자기 화장실 거울이 깨졌을 때 사람은 하던 일을 멈추고 빗자루를 가져와 깨진 조각을 치우겠지만 로봇은 이러한 변화에 대한 적응이 어렵습니다. 정교한 제어 능력도 필요합니다. 휴머노이드는 사람에 비해 하드웨어 자체가 제한적인데 주어진 조건에서 필요한 업무를 수행해야 하기 때문입니다.
보다 중요하게 휴머노이드는 다양한 환경에서 다양한 업무를 할 수 있는 능력, 즉 일반화 능력이 필요합니다. 정해진 업무만 하려면 휴머노이드 보다 더 싼 전용 로봇이 낫기 때문입니다. 결론적으로 휴머노이드가 실제 세계에서 다양한 업무를 수행하기 위해서는 세상과 물리 법칙에 대한 이해, 정밀한 제어 능력이 필요하고 어떤 일이든 벌어질 수 있는 다양한 환경에 적응해 새로운 일도 빠르게 학습해서 수행할 수 있는 일반화 능력이 필요합니다.
과거의 휴머노이드가 오늘의 휴머노이드가 되기까지 최근 2~3년간 기술 발전을 주도한 것은 단연 AI 기술이었습니다. 특히 강화학습과 모방학습, 파운데이션모델의 도입으로 로봇의 인지 및 판단, 제어 능력이 빠르게 개선되어 왔습니다. 강화학습은 사람이 어떻게 일을 해야 할지 하나하나 프로그래밍 해주는 것이 아니라 AI 에이전트가 시행착오를 통해 최적의 행동을 찾아가는 방법입니다. AI가 현재의 상태에서 어떤 행동을 수행할 때마다 그 성과에 대한 보상이 주어지는데 AI는 다양한 시도와 실패를 통해 가장 많은 보상을 얻을 수 있는 최적의 정책을 찾아 가게 됩니다. 강화학습은 사람이 프로그래밍 하기 어려운 현실 세계에서 사전에 프로그래밍 된 지시 없이 스스로 학습할 수 있고 환경이 변하거나 새로운 종류의 작업을 하게 되더라도 계속해서 학습하고 적응하기 때문에 지속적으로 최적화될 수 있습니다.
강화학습을 통해 로봇의 제어 능력이 발전해 왔지만 실제 복잡한 현실 세계에서 특정 작업에 대해 최적의 보상 함수를 구하는 것이 매우 어렵습니다. 이에 모방학습은 따로 보상 함수를 구하지 않고 전문가의 시연을 모방하여 학습합니다. 모방학습 중 하나인 행동 복제는 전문가의 시연 궤적을 수집하여 정책을 지도 학습합니다. 즉 '이렇게 하면 된다'고 보여주면 그 특징들을 학습하는 것입니다. 모방학습은 전문가의 시연을 보고 효율적으로 바로 배울 수 있어 최근 수년간 로봇 학습에 본격적으로 적용되어 왔습니다. 다만 모방학습에 필요한 전문가의 시연 데이터를 모으는 데 많은 비용과 시간이 필요하고 적절한 데이터를 구하기 어려울 수 있는 등 데이터의 양적, 질적 한계가 있습니다. 또한 강화학습과 모방학습은 특정 작업에 대해서만 훈련이 가능하고 학습한 내용을 전이(Transfer)하기 어려워 다른 작업을 하기 위해서는 다시 훈련을 해야 합니다.
이 가운데 파운데이션모델이 등장하면서 최근 2~3년간 기술이 빠르게 발전하고 있습니다. 파운데이션모델이란 방대한 데이터를 사전에 학습한 모델입니다. 대표적인 예가 대형언어모델인 챗GPT입니다. 기존의 언어 모델이 번역이나 질문에 답하기 등 특정한 목적을 위해 필요한 데이터만 학습했던 반면 챗GPT는 인터넷 상의 방대한 언어 데이터를 대규모 파라미터(매개 변수)를 가진 모델로 전체적으로 학습했습니다. 그 결과 챗GPT의 말하기 성능이 급격히 개선되었을 뿐 아니라 언어 및 세계에 대해 대략적으로 이해함으로써 상식에 기반한 추론과 맥락 파악이 가능해졌고, 번역 등 세부적인 작업을 할 때 하나하나 가르쳐 주지 않아도 간단한 예시만을 통해 업무를 수행(Few-shot Learning)할 수 있게 되었습니다. 범용적인 일반화 능력을 갖추게 된 것입니다.
그 외에도 챗GPT는 추가적인 데이터를 통해 지속적으로 업그레이드될 수 있고, 고품질 콘텐츠를 생성할 수 있으며 사용자와 자연어(사람들이 일상적으로 쓰는 언어)로 의사 소통할 수 있고 자연어를 컴퓨터 언어로 바꿀 수 있는 코딩 능력 등을 갖추고 있습니다.
로봇 분야에서 적용되는 파운데이션모델은 크게 1) 챗GPT와 같은 대형언어모델 혹은 여기에 이미지까지 학습시켜진 대형언어시각모델을 로봇에 적용하여 로봇의 인지 및 판단 능력을 개선시키거나 강화학습/모방학습에 코딩 능력을 적용해 발전 속도를 높이는 방향과 2) 아예 로봇 행동까지 학습한 로봇 파운데이션모델을 적용해 하나의 신경망을 통해 End to End로 로봇을 학습시키는 방법으로 성능을 급격히 개선시키고 있습니다.
첫 번째 흐름은 로봇의 인지, 판단 및 제어 영역에 챗GPT와 같은 대형언어(시각)모델을 적용하는 것입니다. 피규어의 휴머노이드는 사람이 가르쳐주지 않아도 사과가 무엇이고 사과는 먹는 것이라는 상식이 있습니다. 상식과 추론 능력이 있는 챗GPT를 적용했기 때문입니다.
이에 앞서 2022년 4월 구글은 SayCan 연구를 발표했습니다. 로봇에게 "음료를 흘렸는데 도와줄수 있어?"라고 물어봤을 때 GPT-3를 이용해 로봇이 할 수 있는 일들 중에 가장 적합한 계획을 찾아냈습니다. GPT-3의 상식 및 추론 능력을 로봇의 계획에 적용한 사례입니다.
이후 2022년 7월 구글에서 발표한 Inner Monologue(독백)은 대형언어모델이 중간에 독백처럼 피드백을 줌으로써 변화하는 상황에서도 업무를 더 완성도 있게 수행합니다. 사람이 로봇에게 뭔가 마실 걸 달라고 해서 로봇이 콜라를 가져가려고 할 때 사람이 콜라를 치워 버리면, 로봇이 업무가 실패했음을 인지하고 "콜라 대신 자리에 있는 오렌지 소다를 가져다 줄까"하고 사람에게 물어봅니다.
제어 분야에서도 파운데이션모델의 도입으로 발전이 가속화되고 있습니다. 2023년 10월 엔비디아에서 발표한 유레카(Evolution-driven Universal RE ward Kit for Agent) 연구는 GPT-4와 시뮬레이션을 이용해 손가락으로 펜을 돌리는 등의 정교한 동작을 구현할 수 있음을 보여줍니다. 강화학습에서 많은 시간과 자원이 소요되는 부분이 보상 프로그램을 작성하는 일인데 유레카에서는 GPT-4가 보상 프로그램을 작성하고 이를 엔비디아의 시뮬레이션 환경에서 현실 세계보다 훨씬 빠르게 테스트한 후, 그 훈련 결과를 다시 GPT-4에 제공해 더 나은 보상 함수를 만드는 자가 발전을 통해 사람 전문가보다 나은 결과를 만들었습니다.
나아가 2024년 5월 엔비디아는 닥터 유레카(Dr Eureka, domain randomization Eureka)를 발표하였습니다. 시뮬레이션 환경에서 강화학습을 한 후 이를 현실 세계에 적용(Sim-to-real)할 때 domain randomization 등 추가적인 작업이 필요한데 닥터 유레카는 이를 GPT-4가 스스로 작성함으로써 전문가의 추가적인 작업 없이 현실 세계에 바로 적용할 수 있음을 보여줍니다. 실제 시연 영상을 보면 시뮬레이션 환경에서 로봇 개가 큰 요가 공 위에서 균형을 잡고 걷도록 훈련한 모델을 바로 현실 세계에 적용할 수 있습니다.
이처럼 기존의 대형언어(시각)모델을 적용해 로봇의 성능을 개선시키는 흐름도 있지만 아예 로봇의 행동 자체를 토큰(파운데이션모델의 학습 단위)화해서 하나의 모델에 훈련시킴으로써 인지, 판단, 제어가 모두 하나의 모델을 통해 이루어지는 End to End 로봇 파운데이션모델도 빠르게 발전하고 있습니다.
2022년 12월 구글은 RT-1(Robotics Transformer-1)이라는 로봇 파운데이션모델을 공개하였습니다. 로봇에게 "책상 서랍에 있는 사과를 꺼내서 위에 올려 놓아라"는 명령을 내렸을 때 기존에는 대형언어(시각)모델이 사과와 책상을 인지하고 어떻게 업무를 수행할지 계획을 세운 후 제어하는 단계를 거쳤다면 RT-1은 이 같은 명령들과 관련 이미지, 이에 따른 로봇의 액션을 모두 토큰화해서 하나의 모델에서 모방학습으로 훈련시켰습니다. 즉 '이런 지시가 내렸을 때 보통 이렇게 하더라'하는 식으로 훈련시킨 것입니다. 구글은 이를 위해 17개월에 걸쳐 13개 종류의 로봇이 700가지가 넘는 일을 13만 번 하는 데이터를 수집하였습니다. 그 결과 챗GPT가 인터넷 수준의 방대한 데이터를 사전 학습한 이후 언어에 대한 일반화 능력이 생긴 것처럼 RT-1도 일반화 능력이 크게 개선되었습니다.
RT-1의 성공 이후 구글은 모델의 크기를 키우고 학습하는 데이터의 다양성을 높이면 성능이 더 개선된다는 연구 결과를 발표하였습니다. 2023년 7월 발표된 RT-2는 RT-1과 유사하지만 훨씬 큰 모델과 인터넷 수준의 대규모 데이터를 적용하였습니다. 그 결과 일반화 능력이 크게 개선되어 학습하지 않았던 업무에 대한 성공률이 개선되었고 대형언어(시각)모델에 있는 상식과 추론 능력을 기반으로 명령에 대한 해석 및 실행 능력이 개선되었습니다. 예를 들어 로봇은 따로 가르치지 않아도 "2+1에 해당하는 곳에 바나나를 놓아라"라는 지시를 듣고 '3'이 적힌 그림 위에 바나나를 놓을 수 있었습니다.
2023년 10월에 발표한 RT-X에서는 다양한 데이터를 통해 학습할수록 로봇의 성능이 개선된다는 점을 보여주었습니다. 기존의 대형언어(시각)모델에 들어가는 데이터는 너무 광범위하고 일반적이어서 구체적으로 로봇에 필요한 작업을 훈련시키는 데 어려움이 있었습니다. RT-X에서는 구글 딥마인드와 33개의 연구소가 협력하여 22개의 로봇 플랫폼에서 16만 개의 작업이 포함된 100만 개 이상의 에피소드를 학습시켰고 결과적으로 수행 능력이 크게 개선되었습니다.
강화학습과 모방학습, 파운데이션모델의 도입으로 로봇은 더 빠르고 효율적으로 정교한 작업을 할 수 있게 발전해 나가고 있습니다. 실제 테슬라 옵티머스 영상을 보면 다수의 전문가들이 시연을 보이고 이를 로봇이 End to End 모방 학습을 통해 배우고 있는 것으로 추정되는 장면들이 나옵니다. 이제 더 많은 데이터를 학습시킬수록 로봇의 성능도 발전할 것입니다. 향후 관건은 특정 환경에서 특정 작업을 할 수 있느냐가 아니라 다양한 개방형 환경에서 다양한 업무를 수행할 수 있는 '범용 휴머노이드'로 발전할 수 있을지 하는 것입니다.
2024년 3월 구글에서 발표한 SIMA(Scalable Instructable Multiworld Agent) 연구는 비디오 게임이라는 3D 가상 환경에서 다양한 게임 데이터(지시, 키보드/마우스 움직임)를 사전 훈련시켰더니 AI 에이전트가 게임 세상에 대해 전반적으로 이해하고 사람의 지시를 게임에서 수행할 수 있음을 보여주었습니다. 현실 세계가 아닌 비디오 게임이라는 가상 환경이긴 하지만 다양한 지시와 에이전트의 행동을 사전에 훈련시킴으로써 AI 에이전트가 게임 세계를 전반적으로 이해하는 일반화 능력을 갖추게 된 것입니다.
엔비디아의 로봇 공학자 Jim Fan은 개방형 현실 세상에서 다양한 작업을 범용적으로 할 수 있는 범용 로봇 AI를 '파운데이션 에이전트'라고 표현합니다. 대량의 텍스트로 챗GPT를 학습시킨 것처럼 현실 세계의 다양한 지시와 형태, 그리고 로봇 액션을 대량으로 학습시키면 파운데이션 에이전트를 만들 수 있을 것이라는 설명입니다.
2024년 GTC에서 엔비디아에서 발표한 프로젝트 GROOT(Generalist Robot 00 Technology)은 이러한 파운데이션 에이전트를 개발하기 위한 프로젝트로 판단됩니다. 이를 위해 엔비디아는 로봇 학습용 파운데이션모델과 시뮬레이션 환경, 전용 연산 반도체 등의 플랫폼을 제공할 계획입니다. 엔비디아의 플랫폼이 출시됨으로써 로봇 데이터 축적과 휴머노이드 기술 발전이 가속화될 것으로 예상됩니다.
좋은 내용 감사합니다