구글 제미니 로보틱스: 로봇 혁명의 새로운 장을 열다
구글이 제미니 로보틱스(Gemini Robotics)라는 새로운 모델을 공개했습니다. 이는 로봇이 물리적 세계에서 더 효과적으로 작동할 수 있도록 설계된 비전-언어-액션 모델입니다. 텍스트와 이미지 생성에 뛰어난 기존 제미니 모델을 넘어, 제미니 로보틱스는 로봇의 움직임, 상호 작용, 그리고 일반화 능력을 획기적으로 향상시킬 잠재력을 가지고 있습니다.
제미니 로보틱스의 핵심 특징: 3가지 혁신
구글 딥마인드가 공개한 제미니 로보틱스는 로봇의 세 가지 핵심 역량, 즉 민첩성(Dexterity), 상호작용성(Interactivity), 일반화(Generalization) 능력을 강화하는 데 집중합니다. 이러한 역량 강화는 로봇이 작업 현장이나 예측 불가능한 환경에서 성공적으로 임무를 수행하는 데 필수적입니다. 특히 일반화 능력은 로봇이 제미니의 방대한 지식을 활용하여 새로운 상황에 적용하고, 이전에 훈련받지 않은 작업도 수행할 수 있도록 해줍니다.
로봇에게 새로운 능력을 부여하다
제미니 로보틱스의 능력을 보여주는 영상에서 로봇 팔은 탁상 농구 게임에서 슬램덩크를 성공적으로 수행합니다. 이는 로봇이 이전에 경험하지 못한 게임임에도 불구하고, 공을 집어 플라스틱 그물에 넣는 데 성공한 것입니다. 또한, 로봇은 포도와 바나나를 그릇에 담는 임무를 수행하면서 그릇의 위치가 바뀌는 예측 불가능한 상황에도 능동적으로 대처하는 모습을 보여줍니다.
정교한 작업 수행 능력
제미니 로보틱스는 로봇이 나무판에 틱택토 게임을 하거나, 화이트보드를 지우고, 종이접기를 하는 등 더욱 정교한 작업도 수행할 수 있도록 합니다. 이전에는 각 작업에 대한 수 시간의 훈련이 필요했지만, 제미니 로보틱스를 통해 로봇은 자연어 명령에 즉각적으로 반응하고, 별도의 지시 없이도 작업을 수행할 수 있게 되었습니다.
경쟁 심화: OpenAI와 Figure AI의 협력
AI를 로봇에 적용하는 것은 새로운 시도가 아닙니다. 작년 OpenAI는 Figure AI와 협력하여 언어 지시에 따라 작업을 수행할 수 있는 휴머노이드 로봇을 개발했습니다. Figure 01의 시각-언어 모델은 OpenAI 음성 모델과 연동하여 작업 및 우선순위 변경에 대한 양방향 대화를 가능하게 합니다. 데모 영상에서 로봇은 접시와 건조대 앞에 서서 주변 환경을 인식하고, 식사를 요청받자 즉시 사과를 건네는 모습을 보여줍니다.
구글의 더 큰 그림: 아폴로 휴머노이드 로봇과의 통합
구글은 제미니 로보틱스를 Apptronik의 아폴로 휴머노이드 로봇에 통합할 계획입니다. 이를 위해 구글은 제미니 로보틱스-ER(Embodied Reasoning)이라는 새로운 고급 시각-언어 모델을 개발하고 있습니다. 제미니 로보틱스-ER은 로봇의 공간 추론 능력을 향상시키고, 로봇 개발자가 모델을 기존 컨트롤러에 연결하는 데 도움을 줄 것으로 기대됩니다. 이는 로봇이 즉석에서 추론하고, 익숙하지 않은 물체를 잡고 사용하는 방법을 신속하게 파악할 수 있도록 해줍니다.
엔드-투-엔드 솔루션: 제미니 로보틱스 ER
구글은 제미니 로보틱스 ER을 "인식, 상태 추정, 공간 이해, 계획 및 코드 생성 등 로봇 제어에 필요한 모든 단계를 즉시 수행할 수 있는" 엔드-투-엔드 솔루션이라고 설명합니다. 구글은 제미니 로보틱스-ER 모델을 보스턴 다이내믹스(아틀라스 로봇 제조사), Agile Robots, Agility Robotics 등 여러 기업 및 연구 중심 로봇 회사에 제공할 예정입니다.
미래 전망: 가정용 로봇 시대는 언제?
제미니 로보틱스는 휴머노이드 로봇 개발자에게 큰 도움이 될 잠재력을 가지고 있지만, 대부분의 로봇이 공장이나 연구실에서 사용되도록 설계되었기 때문에 제미니 기반 로봇이 가정에 보급되기까지는 시간이 걸릴 수 있습니다.
맺음말
제미니 로보틱스는 로봇 기술의 발전을 가속화하고, 우리의 삶을 더욱 편리하게 만들어줄 잠재력을 지닌 혁신적인 기술입니다. 앞으로 구글이 제미니 로보틱스를 통해 어떤 미래를 만들어갈지 기대됩니다.