시각지능 학습용 이미지 데이터 20만 장도 함께 공개

[테크월드=김경한 기자] 한국전자통신연구원(ETRI)이 별도의 지식 없이도 사진 속 객체를 찾아내 분석하거나 얼굴 사진을 쉽게 편집할 수 있는 인공지능(AI) 기술을 일반에 공개한다.

ETRI 연구진이 백본 네트워크 Vovnet를 이용해 CCTV에서 인공지능이 객체를 인식하는 기능을 확인하는 모습(왼쪽부터 이영완연구원, 신정규 UST연수생, 문진영 책임연구원)

ETRI는 사물 인식, 행동 추적 등 시각 인공지능 구현에 필요한 핵심 기술인 백본 네트워크(VoVNet)와 포토샵 없이도 얼굴을 마음대로 편집할 수 있는 기술(SC-FEGAN)을 공개한다고 12월 12일 밝혔다. 

ETRI가 공개하는 백본 네트워크는 사진 속 객체들의 특징을 찾아내 정보를 추출하고 분석해 인공신경망으로 모델을 만들어내는 기술이다. 이 기술을 활용하면 사물 검출, 객체 부분별 분할 인식, 안면 인식 등 다양한 기능들을 구현할 수 있어 시각지능의 핵심 기반 기술로 평가받는다.

ETRI 연구진이 개발한 백본네트워크 Vovnet 기술을 응용해 쓰레기 투기 장면을 관절 단위로 잡아내는 모습

연구진이 공개하는 또 하나의 핵심 기술은 전문 편집 프로그램 없이도 사람의 얼굴 사진을 쉽고 자연스럽게 편집할 수 있는 기술(SC-FEGAN)이다. 이 기술로는 사진 속 인물이 하고 있지 않던 액세서리를 추가하거나 머리 모양, 표정까지도 바꿀 수 있다. 심지어 낙서 등으로 인해 일부가 훼손되거나 빈 공간이 생겨도 원하는 내용을 간단하게 그려 복원할 수도 있다.

이 기술에는 딥러닝 기법 중 하나인 갠(GAN) 기술이 사용된다. 인공적으로 데이터를 만들고 이를 판별하면서 진짜 같은 가짜 데이터를 만들어내는 데 효과적인 기술이다.

SC-FEGAN으로 사진을 편집한 결과 (코, 입, 머리, 악세사리)

갠은 이미지를 합성하거나 변환하는데 효과적이지만 사용자의 의도나 조건 등을 반영하지 못한다는 단점이 있었다. ETRI 연구진은 기술을 보완해 입력값을 넣어 원하는 결과를 낼 수 있도록 개발했다. 덕분에 인물 사진과 사용자가 원하는 입력값을 알고리즘에 넣으면 조건에 적합하면서도 해당 사진 속 주변환경과 자연스럽게 어울리는 이미지를 만들 수 있다. ETRI는 이 기술을 지난 3월 테스트용으로 깃허브(Github) 커뮤니티에 공개한 바 있다. 

이 기술을 활용해 컴퓨터 그래픽, 웹 디자인, 산업디자인 등 분야에서 작업 시간을 대폭 줄이고 결과물의 품질을 높일 수 있어 관련 업계에서 많은 활용이 이뤄질 것으로 기대된다. 

이 밖에도 ETRI는 시각 인공지능을 기술을 학습하는데 꼭 필요한 높은 품질의 데이터도 함께 공개했다. 이미 작년부터 관련 자료를 작년부터 공개해오면서 현재 누적 공개 데이터 개수는 총 20만 장이다.

연구진은 향후 시각지능 관련 핵심 기반 기술들과 높은 품질의 데이터를 지속적으로 공개하는 한편, 얼굴 뿐 아니라 냉장고, 가구 등 다른 객체를 대상으로도 쉽게 편집을 할 수 있도록 기술을 고도화할 계획이다.

회원가입 후 이용바랍니다.
개의 댓글
0 / 400
댓글 정렬
BEST댓글
BEST 댓글 답글과 추천수를 합산하여 자동으로 노출됩니다.
댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글수정
댓글 수정은 작성 후 1분내에만 가능합니다.
/ 400
내 댓글 모음
저작권자 © 테크월드뉴스 무단전재 및 재배포 금지
이 기사와 관련된 기사