HOME
미디어 센터
뉴스레터
Media Center

휴머노이드 로봇 훈련에서 강화 학습이란 무엇인가요?

휴머노이드 로봇 훈련에서 강화 학습이란 무엇인가요?

로봇(robot)은 체코슬로바키아의 극작가 ‘카렐 차페크‘가 집필한 희곡 ‘Rossum’s Universal Robots’에서 처음 등장했습니다. 작품 속에서 그는 인간을 닮은 기계를 묘사하며 이를 로봇이라 불렀습니다. 체코어로 ‘로보타(robota)’에서 유래된 말로, 고된 일이나 강제 노동을 의미합니다. 로봇의 시작이 문학작품으로부터 탄생했다는 사실이 흥미롭습니다.

휴머노이드는 인간과 유사한 신체 구조를 모방해서 만들어진 로봇을 말합니다. 산업 현장에서 사용되는 대부분의 로봇은 특정 환경, 생산 공정에 최적화된 형태로 만들어집니다. 휴머노이드 로봇이 사람과 유사한 형태로 만들어지는 이유도 이와 같습니다. 인간이 할 수 있는 일을 수행하기 위해서는 사람과 유사한 동작을 구현할 수 있는 형태로 만들어야 합니다.

사람은 태어나서 걸음마를 떼고, 말을 배우는 과정을 자연스럽게 수행합니다. 누군가 가르쳐주지 않아도 우리는 본능적으로 알고 있기 때문입니다. 하지만 로봇은 아닙니다. 인간과 달리, 학습 데이터를 제공하지 못하면 스스로 학습하는 것이 어렵습니다. 그래서 최근 인공지능 로봇 분야에서 많은 관심을 받고 있는 것이 AI를 이용한 데이터 훈련(또는 학습)입니다.

1.Human-and-robot-date-learning-process

1. 데이터의 학습 방법

머신러닝(machine learning)이라는 말을 한번쯤 들어보셨을거라 생각합니다. 우리 말로는 기계 학습이라고도 부르며, 사람처럼 학습할 수 있는 알고리즘을 개발하고 훈련하는 일련의 과정들을 말합니다. 사람처럼 학습한다는 의미는, 스스로 규칙을 찾아내고 문제를 해결할 수 있는 방법을 알려주는 일이라고 생각하시면 됩니다. 그리고 이러한 학습을 위해서는 방대한 양의 데이터 확보가 요구됩니다. 머신러닝(기계 학습) 방법은 크게 3가지로 구분할 수 있습니다. 지도 학습과 비지도 학습. 그리고 오늘 글의 핵심 주제인 ‘강화 학습’입니다.

지도학습

지도학습은 문제와 정답을 동시에 알려주는 학습 방법입니다. 예를 들어, 사진으로 성별을 구분하는 AI 모델을 만든다고 가정해보겠습니다. 이때 학습을 위해 우리는 컴퓨터에 남성과 여성의 사진을 제공하고, 각각 누가 남자이고, 누가 여자인지 문제와 함께 정답을 제시합니다. 그러면 AI는 문제(사진)와 정답(레이블)을 토대로 두 이미지 사이의 차이점을 분석하게 되고, 이런 데이터를 반복적으로 학습하면서 패턴을 발견하게 됩니다.

이렇게 축적된 학습 데이터를 기반으로 새로운 이미지를 보더라도 정답을 추론할 수 있게 됩니다. 문제와 정답을 제시하며 AI가 정답에 도달하도록 안내하고 지도한다는 의미에서 이런 방식의 학습을 ‘지도학습’이라고 부릅니다. AI의 추론 능력, 정답의 예측 성능을 높이기 위한 방법이라고 이해하시면 됩니다.

2.superviser-learning

비지도 학습

비지도 학습은 지도 학습과 달리 문제만 제시하고 정답을 제공하지 않는 학습 방법입니다. 이때 핵심이 되는 개념은 ‘데이터 군집화(클러스터링)’입니다. 쉽게 설명하면, 입력된 데이터에서 스스로 패턴을 찾아 비슷한 것끼리 묶는 방식이라고 이해할 수 있습니다.

이런 접근은 사전에 분류되지 않은 데이터나 방대한 양의 정보를 다뤄야 할 때 특히 효과적입니다. 예를 들어 신제품 출시를 앞두고 시장에서 자사 제품의 포지셔닝을 파악하려 할 때를 생각해보겠습니다.

소비자가 어떤 요소에 반응하는지, 가격에 대한 기대치는 어떻게 변하는지, 경쟁 제품의 가격 흐름은 어떤지 등 다양한 정보를 수집해야 합니다. 댓글, 리뷰, 판매 수량, 가격 같은 데이터는 충분히 있지만, 이런 데이터가 어떤 그룹에 속해야 하는지 ‘정답’은 없습니다. 데이터는 존재하지만, “이 데이터는 어느 유형이다”라는 라벨은 없는 상황입니다.

이때 가격, 댓글, 판매 수량과 같은 여러 특징(feature) 데이터를 AI에게 입력하면, AI는 ‘이 데이터가 어떤 그룹에 속해야 한다’는 정답(레이블, label)이 주어지지 않은 상태에서 비슷한 패턴끼리 데이터를 자동으로 여러 군집으로 나눕니다. 그리고 이렇게 묶인 군집을 사람이 다시 살펴보면, 아래처럼 의미 있는 유형을 도출해낼 수 있습니다.

가격이 높고 만족도가 높은 고객군
가격은 낮은데 만족도가 높은 고객군
가격이 높은데 만족도가 낮은 고객군
가격과 만족도가 모두 낮은 고객군

즉, AI가 직접 “가격이 높다/낮다”를 기준으로 분류한 것이 아니라, AI가 패턴을 기준으로 묶어놓은 결과를 사람이 해석하여 의미를 붙이는 과정입니다. 이것이 비지도 학습의 본질적인 방식입니다.

비지도 학습의 목적은 데이터 안에 숨어 있는 구조나 패턴, 상관관계를 스스로 발견하도록 하는 데 있습니다. 지도 학습처럼 각 데이터에 정답 라벨을 붙이지 않아도 되기 때문에, 라벨링 비용과 시간이 크게 줄고, 대량의 데이터를 효율적으로 활용할 수 있다는 장점이 있습니다.

3.examples-of-unsupervised-and-data-clustering

지도 학습과 비지도 학습의 차이점

지도 학습은 AI에게 문제 데이터와 함께 그에 대한 정답, 즉 레이블을 같이 제공하는 학습 방법입니다. 예를 들어, 얼굴 사진 수천 장이 있을 때 각각이 남자인지 여자인지 사람이 직접 표시를 해 줘야 합니다. 이렇게 정답을 하나하나 붙이는 작업에는 많은 시간과 노력이 필요하며, 비용도 크게 듭니다. AI는 이렇게 라벨링 되어있는 데이터를 바탕으로, 각 사진의 특징과 정답을 연결해 배우므로 새로운 사진을 봤을 때 성별을 정확하게 예측할 수 있게 됩니다.

반면, 비지도 학습은 정답 레이블 없이 AI에게 문제 데이터만 줍니다. AI는 사진들의 특징을 스스로 찾아내어 비슷한 사진끼리 그룹으로 묶는 ‘군집화’ 작업을 합니다. 예를 들어 머리 모양, 얼굴 형태 같은 공통점을 가진 사진을 하나의 그룹으로 나누는 것입니다. 이후 사람이 이 그룹을 보고 ‘이 그룹에는 주로 남성 사진이 있다’, ‘저 그룹에는 여성 사진이 많다’고 해석합니다. 이 방식은 사람이 일일이 정답을 붙이지 않아도 되기 때문에 많은 양의 데이터를 빠르고 경제적으로 처리할 수 있다는 장점이 있습니다.

구분지도 학습(Supervised Learning)비지도 학습(Unsupervised Learning)
핵심정답이 있는 데이터로 예측 능력 학습정답 없이 데이터의 구조와 패턴 학습
데이터 특징레이블(정답)이 필수적으로 포함됨레이블이 없음
학습 과정정답(레이블) 기반 특징과 관계 학습데이터의 유사성을 스스로 분석해 그룹화
주요 목표새로운 데이터의 정답을 예측(분류, 회귀)데이터 내의 숨겨진 통찰력 발견(군집화, 차원 축소)
비용/시간데이터 라벨링 시간과 비용 소모↑데이터 준비 비용이 비교적 저렴하고 빠름

강화 학습이란?

일반적으로 우리는 어떤 행동을 하거나 노력을 기울였을 때 그에 맞는 대가를 기대합니다. 회사에서는 근무 강도에 맞춘 급여를 바라게 되고, 친구나 가족, 연인과의 관계에서도 비슷한 보상 구조가 자주 나타납니다. 심리학에서는 이를 ‘보상 심리’라고 부릅니다. 강화 학습은 바로 이런 ‘보상 심리’를 기반으로 한 머신러닝 기법 중 하나입니다.

지시된 명령을 수행하기 위해 주어진 환경과 계속 상호작용하며, 얻을 수 있는 보상을 최대화하는 방향으로 가장 적합한 행동이나 경로를 찾아 학습해 나가는 방식입니다. 조금 더 쉽게 말하면, AI는 환경을 관찰하고 선택 가능한 행동을 취하며, 그 결과로 보상(또는 벌점)을 받습니다. 이 보상을 최대화하는 방향으로 행동을 최적화하는 것이 강화 학습의 목적입니다. 성공과 시행착오를 반복하면서 더 나은 보상을 얻기 위해 AI가 스스로 방법을 찾고 이를 개선해 나가는 알고리즘이라고 할 수 있습니다.

최근 다양한 인공지능 분야에서 강화 학습이 특히 많이 활용되고 있습니다. 이 방식의 가장 큰 특징은 별도의 사전 데이터를 제공하지 않아도 된다는 점입니다. AI가 환경 속에서 직접 성공과 실패를 겪으며 스스로 학습하기 때문에 복잡한 조건을 가진 분야나 데이터 일반화 (또는 데이터 전처리)가 어려운 상황에서 효과적입니다. 시행착오를 거쳐 계속 발전하는 과정이 인간의 학습 방식과 유사해, 최근에는 휴머노이드 로봇과 같은 인공지능 로봇 분야에서도 강화 학습이 활발하게 적용되고 있습니다.

4. reinforcement learning

2. 휴머노이드 로봇의 학습 방법

그렇다면 최근 여러 미디어에서 소개되고 있는 휴머노이드 로봇의 학습 과정에는 어떻게 적용되고 있을까요? 누군가 인공지능 로봇 산업이 이처럼 빠르게 성장할 수 있었던 원동력이 무엇이냐고 묻는다면, 저는 세 가지를 먼저 떠올릴 것 같습니다. 바로 OpenAI의 ChatGPT, 구글의 Gemini와 같은 대형 언어 모델(LLM, Large Language Model)과 시각 언어 모델(VLM, Vision Language Models)의 등장과 앞서 설명한 강화 학습입니다.

피지컬 AI

피지컬 AI‘라는 표현을 들어보신 적 있을까요? 이는 실제 물리 세계에서 몸을 가지고 직접 상호작용할 수 있는 형태의 AI를 의미합니다. 우리가 뉴스를 통해 접하고 있는 휴머노이드 로봇, 자율주행 로봇, 4족 보행 로봇 등은 모두 넓은 의미에서 ‘피지컬 AI’를 목표로 발전하고 있다고 볼 수 있습니다.

이처럼 인공지능이 탑재된 로봇이 물리 세계에서 제대로 행동하기 위해서는 주변 사물을 인지하고, 어떤 행동을 할지 결정하고, 그 결정을 실제 동작으로 수행하는 3가지 단계가 필요합니다. 카메라나 라이다(LiDAR) 같은 비전 시스템, 로봇의 상태와 거리 정보를 읽는 각종 센서, 그리고 움직임을 정확하게 만들어주는 액추에이터까지. 로봇 공학은 여러 첨단 기술이 동시에 요구되는 복합적인 산업입니다.

로봇이 인간과 자연스럽게 상호작용하기 위해서는 언어를 통한 소통이 필수적입니다. 대형 언어 모델은 로봇이 사람의 말을 더 잘 이해하고, 보다 정확한 방식으로 명령을 수행할 수 있도록 돕는 핵심 기술입니다. 만약 이런 LLM이 등장하지 않았다면, 오늘 우리가 보고 있는 휴머노이드 로봇에 대한 관심과 기대도 지금과는 많이 달랐을 것이라고 생각합니다. 화제가 되었던 Figure AI가 선보인 Figure 01 역시 이러한 LLM 모델을 탑재하여 인간과 상호작용 하는 모습을 보여주었죠.

이미지와 텍스트, 음성 등 다양한 형태의 데이터를 인식하고 처리할 수 있도록 하는 AI 기술을 멀티모달 모델이라고 부릅니다. VLM (Vision-Language Model)은 그중에서도 시각 정보와 언어 정보를 함께 다루는 모델입니다.

VLM (Vision-Language Model)은 이 두 정보를 따로 보지 않고, 이미지와 문장을 같은 공간에서 함께 이해할 수 있도록 연결해 줍니다. 그래서 로봇은 단순히 ‘상자가 있다’는 사실만 아는 것이 아니라, ‘그 상자’가 어디에 있고 무엇을 해야 하는지까지 파악하고 이를 처리할 수 있게 합니다. ‘인지처리 능력의 강화 버전‘정도로 이해하시면 됩니다.

5.vision-language-model

로봇 학습은 어떻게?

로봇 학습은 어떻게 이루어질까요? 일본의 산업기술종합연구소 AIST에서 활동하고 있는 오가타 회장은 30년 경력의 로봇 및 인공지능 전문가입니다. 그의 설명에 따르면 휴머노이드 로봇 발전의 핵심 기술은 ‘강화 학습과 모방 학습’입니다.

모방 학습은 말 그대로 인간의 행동 양식을 모방한 데이터 셋을 활용해 학습하는 방식입니다. 예를 들어 콘솔 기기나 모션 캡처를 이용해 특정 행동과 상황을 반복해서 수집하고, 이렇게 쌓인 데모 데이터를 기반으로 로봇이 과거의 움직임을 스스로 재현할 수 있도록 학습시키는 형태입니다. 앞서 설명한 머신러닝 기법 중에서는 지도 학습과 가까운 개념이라고 보시면 됩니다.

강화 학습은 로봇이 스스로 시행착오 과정을 거치며 목표를 달성하기 위한 최적의 행동을 찾아가는 방법입니다. 실제 로봇에 바로 적용하면 고장이나 안전 문제 발생 가능성이 높기 때문에, 최근에는 NVIDIA의 Isaac Sim과 같은 가상 물리 환경에서 다량의 학습과 실험을 반복하는 방식을 많이 사용하고 있습니다. 이렇게 가상의 물리 환경에 시뮬레이션을 통해서 축적한 학습 데이터를 바탕으로 현실 환경에서 검증하며 피드백하는 ‘시뮬레이션현실(Sim2Real)’ 과정도 강화 학습의 중요한 부분입니다.

강화 학습의 장점은 로봇이 스스로 문제를 발견하고 개선해 나가며 정답에 도달할 수 있다는 점입니다. 다만 그 과정에서 필요한 실험의 양이 엄청나기 때문에, 가상의 물리 엔진을 활용하더라도 방대한 학습 샘플이 요구됩니다. 이렇게 학습된 데이터를 실제 물리 환경에서 테스트하고 다시 피드백하는 과정을 반복해야 한다는 사실만으로 기술 개발의 어려움을 간접적으로나마 이해할 수 있습니다.

6. 4. reinforcement learning_2
(생성형 AI로 제작된 이미지입니다)

3. 핵심은, Sim2Real

위에서 휴머노이드 로봇의 강화 학습 개념을 설명하면서, 시뮬레이션에서 학습된 데이터를 현실에서 검증하는 과정도 강화 학습의 중요한 부분이라고 설명을 드렸습니다. 결국, 피지컬 AI의 목적은 현실 세계에서 실제 소비자(기업 또는 개인)가 요구하는 가치(성능, 생산성 등)를 제공하는 것이 목표이기 때문에, 실제 현장에서 역할(또는 임무)를 수행 할 수 있는 능력을 갖출 수 있느냐, 없느냐가 핵심입니다.

아무리 시뮬레이션을 통해서 방대한 양의 데이터를 학습했다고 하더라도, 실제 환경에서는 여러 가지 변수들이 존재합니다. 이러한 변수를 고려하여 센서, 비전 시스템, 액추에이터와 같은 구동 부품들이 안정적으로 작동하지 않는다면, 인공지능 로봇의 산업화 또는 대중화는 불가능합니다.

주식회사 본시스템즈에서는 이러한 휴머노이드 로봇 산업의 핵심 문제를 인식하고, 국내 기술로 제작된 휴머노이드 로봇에 최적화된 액추에이터 개발을 진행했습니다. 그 결과, 선보이는 것이 그동안 소개드리고 있는 BCSA V4 시리즈입니다.

BCSA 시리즈는 사이클로이드 기어 운동 기반의 액추에이터입니다. 최근 국내는 물론, 미국, 캐나다, 인도 등 여러 글로벌 기업에서 자사 제품에 많은 관심을 가져주시고 있는 인기 모델이며, 다양한 모델 중에서 저희가 강력하게 추천드리고 있는 BCSA V4 RI 버전은 최근 휴머노이드 로봇 산업에서 트렌드로 떠오르는 내구성(안정성)과 경량화에 초점을 맞춤 제품입니다.

로봇 팔, 어깨와 같은 작은 관절 부위에 적용할 수 있는 시리즈로 외경 70mm~96mm, 감속기 19:1~49:1까지 다양한 모델들을 제공하고 있습니다. 이번에 국내에서 개최한 2025 로보월드를 통해서 선보였던 ㈜본시스템즈의 휴머노이드 로봇 2종 역시 BCSA V4 RI 버전을 적용한 제품들입니다. 최대 토크, 백래시 등 자세한 정보는 제품 페이지에서 확인하실 수 있습니다.

7. bcsa v4 ri banner

4. 자주 묻는 질문 (FAQ)

휴머노이드 로봇에서 강화 학습은 어떤 방식으로 활용되나요?

강화 학습은 휴머노이드 로봇이 환경과 상호작용하면서 시행착오를 반복해 스스로 최적의 행동을 찾아가는 학습 방식입니다. 사람이 태어나고 걷고 균형을 잡는 과정을 본능적으로 거치는 것과 달리, 로봇은 사전에 충분한 데이터를 제공받지 못하면 아무것도 해낼 수 없습니다. 그래서 최근 로봇 연구에서는 실제 로봇에서 바로 테스트하기 어려운 복잡한 동작을 가상의 물리 환경(NVIDIA Isaac Sim 등)에서 먼저 학습시키는 방식이 보편화되고 있습니다. 이렇게 시뮬레이션에서 축적된 데이터를 현실 환경에서 다시 검증하고 보완하는 과정을 ‘Sim2Real’이라고 부르며, 강화 학습의 실효성을 높이는 핵심 단계로 활용됩니다.

Sim2Real이 중요한 이유는 무엇인가요?

시뮬레이션 환경은 안전하고 반복 회수가 무제한이라는 장점이 있지만, 현실 세계는 센서 노이즈, 마찰, 지면 상태 변화 등 다양한 변수가 존재합니다. 휴머노이드 로봇이 산업 현장이나 일상 환경에서 안정적으로 움직이려면, 시뮬레이션으로 학습한 모델이 실제 하드웨어에서도 동일하게 작동해야 합니다. 이를 위해서는 센서, 비전 시스템, 그리고 무엇보다 액추에이터의 내구성과 출력 안정성이 매우 중요합니다. 하드웨어 구동계의 신뢰성이 곧 Sim2Real 성공의 핵심 요인이라고 할 수 있습니다.

BCSA V4 RI 시리즈는 어떤 기술적 장점을 가지고 있나요?

BCSA V4 RI 시리즈는 휴머노이드 로봇 팔에 최적화된 모델입니다. 어깨·팔꿈치·손목처럼 공간 제약이 큰 관절에 최적화된 형태로 설계되었습니다. 내부 구조는 하중을 여러 접점으로 분산시키는 사이클로이드 감속 기술을 기반으로 하여 내구성과 반복 동작 신뢰성이 뛰어납니다. 이러한 구조적 특성은 휴머노이드가 수천, 수만 번의 반복 동작을 수행하더라도 안정적인 관절 성능을 유지하는 데 기여합니다.

휴머노이드 로봇 학습에 고성능 액추에이터가 필수인가요?

휴머노이드 로봇의 강화 학습 과정에서는 넘어지고 다시 일어나고, 물체를 잡고 놓는 등 수많은 반복 동작이 발생합니다. 이 과정에서 관절 구동부는 매우 큰 하중과 충격을 받게 되며, 출력토크가 부족하거나 구조 강성이 떨어지면 동작의 신뢰성이 크게 떨어집니다. 본시스템즈의 BCSA 시리즈는 사이클로이드 기반의 구름 운동 방식으로 마찰을 줄이고 하중을 분산시키는 구조적 특징을 갖고 있어, 반복 동작과 충격 하중에 강한 내구성을 유지할 수 있습니다.

모방 학습과 강화 학습은 어떻게 다른가요?

모방 학습은 사람이 직접 보여준 동작 데이터를 기반으로 로봇이 그 움직임을 따라 하도록 만드는 방식입니다. 말 그대로 ‘좋은 예시’를 주고 이를 재현하게 만드는 과정이라, 로봇이 처음 기본 동작을 익히는 단계에서 특히 효과적입니다. 반면 강화 학습은 로봇이 환경에서 스스로 행동을 선택하고, 그 결과에 따라 보상이나 패널티를 받으며 점점 더 나은 전략을 찾아가는 방식입니다. 정답 데이터를 제공하지 않아도 되기 때문에 실제 물리 환경에서 균형 잡기, 장애물 넘기 같은 복잡한 문제를 스스로 해결하도록 만드는 데 적합합니다.

참고 자료

1. 「바닥부터 배우는 강화 학습 – 지도 학습과 강화 학습」, 네이버 블로그 (2020.9.14)
2. 「Vision-Language Models: The AI That’s Learning to See and Speak」, Medium (2024.09.17)
3. 「Supervised vs Unsupervised Learning Explained」, seldon (2025.03.09)
4. 「What is Physical AI?」, NVIDIA (2025.10.28)