슈퍼브에이아이, 고품질 AI 학습용 데이터의 구축방법 소개

시너지 위한 기업과의 협업, 데이터의 정의, 체계적 인력관리 필요

[테크월드뉴스=김경한 기자] 슈퍼브에이아이(Superb AI)가 지난 2월 8일 유튜브 웨비나(웹+세미나)를 통해 AI 개발에 필요한 데이터 구축 시 겪었던 시행착오와 이를 뛰어넘어 고품질 데이터를 구축했던 노하우를 소개했다.

데이터의 다양성, 정확성, 유효성 확보해야

이 자리에서 박준하 BD & AI 컨설턴트는 AI 개발에 필요한 데이터 구축 시에 단순히 방대한 양의 데이터를 수집·분석하는 것을 넘어서 데이터의 다양성, 정확성, 유효성을 확보해야 하는 등 난이도가 점점 높아지고 있다고 밝혔다.

AI 학습용 데이터 구축사업이 2020년 기준으로 3000억 원 규모로 성장했으며, 앞으로 각 사업의 종료 시까지 2조 5000억 원 정도의 금액이 투자될 전망이다. 이 같은 성장 속도로 인해 AI 학습용 데이터 구축 사업에 참여한 기업들은 이전에는 볼 수 없었던 대규모의 인력을 고용해서 데이터 수집, 가공, 검사의 과정을 수행하고 있다. 이는 방대한 양의 데이터뿐만 아니라 더 비대해지는 인력관리 프로세스라는 문제에 봉착하게 한다. 또한 기존에 구축된 데이터를 어떻게 산업에 사용할지에 대해 어려워하는 등 품질관리에 대한 이슈도 추가됐다.

이는 2019년에 범용 모델 데이터 세트로 진행했으나, 2020년에는 헬스케어, 재난, 안전, 환경, 교통, 물류 등 다양한 산업의 데이터를 확보해야 하는 등 수집 난이도가 높아진 점에서 알 수 있다. AI 학습용 데이터 구축 사업은 데이터 품질관리 체계를 해외 연구소에서 공개한 오픈 데이터 수준이 아니라 글로벌 기업에서 활용하고 있는 수준을 요구하는 등 좀더 까다로워지고 있기도 하다.

박준하 컨설턴트는 이런 문제를 해결하기 위한 추진전략을 소개했다.

먼저 데이터 구축의 전문성과 경험을 갖춘 수행조직을 구성해야 한다. 단 박 컨설턴트는 “AI 학습용 데이터 구축 사업에는 AI 전문 지식이 없는 기업도 참여할 수 있다”고 강조했다. 이런 경우에도 기존 사업에서 데이터를 많이 보유하고 있거나 데이터 구축 방법을 알고 있다면, AI 서비스나 연구를 하고 있지만 데이터가 부족한 학계·연구소와 함께 사업에 참여할 수 있기 때문이다.

데이터의 수집, 가공에 대한 전문성을 갖추는 것이 기본이나, 이에 해당하지 않더라도 많은 인력을 필요로 하는 AI 데이터 구축 사업의 특성에 맞게 인력을 제공하는 방향으로 사업에 참여할 수도 있다.

무엇보다 중요한 것은 데이터 구축에 앞서, 데이터의 정의를 명확히 하는 것이다. 데이터 정의가 제대로 되지 않아 수집 단계부터 지연 문제가 종종 발생하기 때문이다. 박 컨설턴트는 “실제로 데이터 정의에 충분한 시간을 할애한 기업은 문제없이 과제를 수행한 반면, 정의에 실패한 기업은 수집, 가공을 포함한 전 과정을 다시 수행해야 할 상황에 처했다”고 말했다.

더불어 AI 학습용 데이터 구축 사업에 성공적으로 참여하기 위해서는 기업의 장단점을 파악하고 난 후, 단점을 상쇄시켜줄 수 있는 협력 기업을 찾는 것이 중요하다. 그는 “사업분야는 다르지만 뚜렷한 장점을 갖고 있고 시너지 효과를 발휘할 수 있는 파트너를 물색하고 함께 참여한다면 사업 수주 가능성이 높다”고 밝혔다.

생산성 향상 위한 체계적 인력관리 필요

이지훈 AE(Account Executive)는 AI 학습용 데이터 구축 프로젝트 수행을 위한 품질관리의 중요성을 설명했다.

이 AE는 “2019년 조사기관에 따르면, 인공지능 개발 기업 중 96%가 인공지능 학습용 데이터 구축 문제를 겪고 있다. 이들 기업의 66%는 데이터 편향과 에러와 같은 데이터 품질의 이슈가 있다고 답했다”고 말했다.

그는 이를 해결하기 위해서 “구축하고자 하는 데이터가 명확하게 설계돼야 하고, 데이터 구축을 위해 필요한 대규모의 인력을 효과적으로 관리해야 하며, 전체 프로젝트 운영의 생산성을 높일 수 있는 적절한 도구를 사용해야 한다”고 주장했다.

데이터 설계에 있어서는 AI의 문제 해결 범위, 만들고자 하는 AI 모델과 AI 작동 환경의 정의가 필요하다. AI 개발자와 작업자의 시각차를 좁히기 위함이다. 예를 들어, 사람의 어깨에 라벨링을 하는 경우에도 작업자에 따라 앞쪽 어깨, 위쪽 어깨, 옆 어깨 등 다양한 곳을 표시할 수 있는데 이런 세세한 부분까지 미리 정의해둬야 한다.

AI 학습용 데이터 구축은 노동집약적인 작업이기 때문에 작업자의 생산성 관리도 중요하다. 최근에는 직접 고용인 인하우스 라벨러뿐만 아니라 크라우드 소싱 형태의 고용이 많아지고 있다. 작업 정확도가 떨어질 수밖에 없는 크라우드 소싱 방식의 작업자 관리를 위해서는 작업자 가이드를 최대한 단순화해서 작성해야 한다. 이는 작업자 스스로 생각하거나 판단하지 않도록 다양한 사례를 담아서 가이드를 작성하는 것을 의미한다.

작업자에게 라벨링 도구 교육도 철저히 해야 한다. 활용하고자 하는 소프트웨어의 특징, 기능, 단축키를 이해하기 쉽게 교육하는 것이 관건이다.

교육 완료 후에는 작업자 평가가 반드시 필요하다. 평가를 통해 작업자별 역량을 파악하고 리소스를 배분하는데 활용할 수 있다. 이지훈 AE는 업의 고성과자에게는 보상을 집중하고, 저성과자에게는 다른 업무를 부여하는 것을 추천했다.

프로젝트 운영의 생산성을 높일 수 있는 도구는 작업자에게도 친화적인 도구가 필요하다. 이 도구는 라벨러가 작업할 때 실시간으로 묻고 답변을 얻을 수 있는 협업 가능 커뮤니케이션 채널로, 카카오톡 오픈채팅방, 네이버 밴드, 슬랙, 구글 독스 등이 있다.

한편, 슈퍼브에이아이는 머신러닝 데이터 플랫폼 서비스 업체로, 머신러닝 데이터 구축, 관리, 분석을 효율화하고 인공지능 개발 과정에서협업을 돕는 ‘슈퍼브에이아이 스위트’를 개발·공급하고 있다. 한국정보화진흥원으로부터 AI 산업 발전에 기여한 공을 인정받아 공로상을 받았으며, 동사의 김현수 대표가 2020년에는 포브스 아시아로부터 기술사업 부문 대표 수상자로 선정되기도 했다.

회원가입 후 이용바랍니다.