슈퍼브에이아이, 한글 OCR 인공지능 학습용 데이터 780만 자 공개

자율주행차, 문자 판독, 전자상거래의 상품 라벨 등 AI 산업 활용 기대

[테크월드=김경한 기자] 슈퍼브에이아이가 한글 글자체의 이미지 데이터 세트가 없어 관련 연구가 지체됐던 점을 인식해 한글 OCR 인공지능 학습용 데이터 780만 글자를 구축하고 AI 허브에 공개했다.

OCR(optical character reader) 기술은 자율주행, 증강현실(AR), IoT(사물인터넷) 등의 산업분야에서 영상 내 문자를 인식하는 서비스의 기반 기술이다. 한글 OCR 데이터 세트는 자율주행차 표지판 인식, 증강현실·IoT 산업의 문자 판독, 전자상거래 사업의 상품 라벨, 도서표지 검색, 종이문서 인식 등 다양한 산업 분야에서 활용할 수 있다.

슈퍼브에이아이는 한국 정보화진흥원(NIA)에서 주관하는 2019년 한국어 글자체 이미지 AI 데이터 구축 사업에 참여해, 인공지능 개발을 위한 ▲간판, 도로 표지 등의 이미지 내 Text in the Wild 130만 글자 ▲인쇄체 280만 글자 ▲손글씨체 370만 글자 등 총 780만 글자 이미지 데이터를 성공적으로 제작했다. 한국어의 고유한 특성을 살린 OCR 인공지능 학습용 데이터 세트로서 한글 자모 조합 총 1만 1172자를 포함한다.

이번에 공개된 데이터 세트는 AI Hub 플랫폼(http://aihub.or.kr/aidata/133)에서 다운로드할 수 있다. 이를 통해 누구나 대량의 한글 OCR 학습 데이터를 내려 받아 한글 인식과 이미지 기반 검색 등의 AI 모델과 서비스 개발에 활용할 수 있다.

그동안 구글 등 글로벌 기업이 제공하는 OCR 활용 인지 서비스에 한국어로 된 글자체 이미지 데이터 세트가 없어 기관, 기업의 연구개발에 차질이 빚어졌다. 전세계적으로 전통적인 알고리즘이 아닌 딥러닝 기반 OCR 기술을 사용하는 추세라 한글 글자체에 대한 공개된 학습용 데이터 세트가 필요하다는 게 회사 측 설명이다.

또한, 슈퍼브에이아이는 데이터를 가공, 관리, 분석하는 슈퍼브에이아이 스위트(Superb AI Suite)를 도입해 인공지능 개발에 즉시 사용할 수 있는 양질의 데이터 세트를 구축했다. 슈퍼브에이아이 스위트는 2019년 12월 출시된 기업용 소프트웨어로, 데이터 어노테이션을 쉽게 하는 기능과 반자동 어노테이션을 지원하는 AI 모델이 포함된 종합 머신러닝 데이터 플랫폼이다.

회원가입 후 이용바랍니다.