“금융업은 데이터를 수집하고 분석해서 그 결과를 기반으로 수익을 창출하는 것이 기본이다. 이제 데이터를 모으고 저장하는 것은 기업들에게 큰 일은 아닌 상황이 됐다. 문제는 수집된 데이터를 어떤 식으로 분석해 유의미한 인사이트를 추출하고 이를 실제 업무에 적용하는가에 달려 있다”고 미래에셋증권의 최현만 회장은 말한다. 그는 “이는 새로운 아이디어에 기반한 분석이 필요하며, 미래에셋증권은 이런 새로운 아이디어를 가진 인재를 양성하기 위해 노력해 왔다”며, 이런 인재 양성의 방법 중 하나로 개최된 이번 '2022 미래에셋증권 빅데이터 페스티벌(이하 빅데이터 페스티벌)'의 의의를 설명했다.
지난 2017년 시작한 이래 6회째를 맞이한 ‘2022 미래에셋증권 빅데이터 페스티벌’은 지난 6월 27일 신청 접수를 시작해 예선, 본선을 거쳐 지난 11월 16일 오프라인 프리젠테이션으로 진행된 결선을 거쳐 수상자를 선정하며 성대한 막을 내렸다.

결선 6개 팀의 불꽃 튀는 결과물 발표 경쟁
이번 '빅데이터 페스티벌'은 예선 55개 대학 161개 팀, 303명이 참여해, 본선에서 11개 대학, 18개 팀 50명으로 추려졌으며, 결선에는 6개 대학 6개 팀, 17명이 오프라인 프리젠테이션을 통해 우열을 겨뤘다.
올해 공모전은 'ESG 점수 평가모델 개발', 그리고 'All New 포트폴리오 개발'이라는 두 가지 주제가 제시됐으며, 결선에 오른 6팀은 ESG 평가모델 개발 3팀, All News 포트폴리오 개발 3팀으로 나뉘어 진행됐다.
결선은 미래에셋증권 2명, 구글 클라우드 2명 등 주최측 4명, 그리고 외부 인사 2명 등 총 6명의 심사위원의 평가를 통해 진행됐으며, 각 팀은 프리젠테이션과 심사위원의 질의 응답을 통해 각 프로젝트의 결과물에 대한 설명을 진행했다.
심사는 미래에셋증권의 디지털부문 안인성 대표, 리서치센터 센터장 서철수 상무, 그리고 구글 클라우드 금융사업 부문의 윤준호 부문장과 애널리틱스 파트 고봉수 스페셜리스트, 그리고 외부 인사로는 AI 자산운용 업체인 크래프트테크놀로지스의 김형식 대표와 S&P의 이형진 이사가 심사위원으로서 각 팀의 결과물을 평가했다.
안인성 대표는 환영사에서 “미래에셋증권은 사회공헌과 데이터 기반의 투자 문화 활성화를 위해 2017년부터 빅데이터 페스티벌을 진행해 왔다. 특히 올해는 구글 클라우드와 함께 공동 주최를 함에 있어 학생들이 구글 클라우드 환경과 인공지능 서비스, 그리고 세일즈포스의 태블로와 같은 데이터 시각화 도구를 활용하는 경험을 제공했다는 점에서 더욱 의미있는 행사였다”며, “미래에셋증권은 최근 급변하는 투자 환경에서 고객의 성공적인 자산 운용을 위해 많은 노력을 하고 있으며, 이런 관점에서 ESG와 투자 포트폴리오라는 주제로 진행된 이번 빅데이터의 페스티벌 주제에 대해 대학생 여러분들이 어떤 새로운 시각으로 문제에 접근해 해결해 나가는지 많은 기대가 된다”고 말했다.

ESG 평가모델 개발한 ‘러닝머신 팀’이 대상 수상
ESG 평가모델 개발을 주제로 본선에 진출한 3팀인 NaeBIS ESG, KUBIG, 러닝머신 등 3개 팀은 각각 설명 가능한 ESG, 텍스트 데이터의 감성 분석, 이미지 처리 모델 활용 등의 독특한 장점을 앞세워 심사위원에게 각 프로젝트 결과물의 장점을 설명했다.
All New 포트폴리오 개발을 주제로 본선에 진출한 연구실 사람들, KAI’s ETF, 엉망장자팀 또한 머신러닝을 활용한 국면별 자산 배분 전략이나, 중위험 중수익을 목표로 하는 로보 어드바이저 모델, 위험과 수익을 코릴레이션하는 4단계 로직을 설명했다.
치열한 경쟁 끝에 성균관대학교 통계학과 3명으로 구성된 러닝머신 팀이 대상의 영예와 함께 2000만원의 상금을 받게 됐으며, 최우수상은 KAI’S ETF, KUBIG팀이, 우수상은 연구실사람들, 엉망장자, NaeBIS ESG팀이 수상했다. 최우수상 2팀은 각각 1000만원, 우수상 3팀에게는 각각 500만원의 상금이, 그리고 본선 진출자 중 선정된 장려상 5팀에게는 각각 100만원 등 총 6000만원의 상금이 지급되며, 전체 입상자에게는 미래에셋증권 입사 지원시 서류전형 면제 혜택을, 그리고 대상 1팀에게는 1달간의 인턴십 기회를 제공한다.
참신성과 높은 완성도의 결과물로 경쟁
심사위원들은 결선 진출팀의 결과물이 학생의 작업물이라고 보기에는 굉장히 수준이 높으며, 창의성과 참신성 등 애초에 기대했던 부분 외에도 클라우드 서비스나 AI, 시각화 툴의 사용에 있어서도 매우 전문적인 지식과 뛰어난 완성도를 보여줬다며, 높은 평가를 내렸다. 특히 대상을 받은 러닝머신팀에 대해서는 ESG 점수 평가모델 개발의 당위성 등 배경에 대한 설명이 명확하고, 결과물 또한 매우 높은 완성도를 보였다고 평가했다.
이날 행사에 참석한 구글 클라우드 코리아의 장화진 사장은 “이번 공모전에서 경쟁한 팀들의 발표 수준이 매우 높아 인상적이었다. 학생임에도 불구하고 엔지니어 수준의 완성도를 보여줬다는 점에서 참여한 모든 분들의 노력에 박수를 보낸다”며, “빅데이터 페스티벌을 통해 학생들에게 구글 클라우드의 쉽고 직관적인 데이터 분석과 머신러닝 서비스 경험을 제공할 수 있어 기쁘게 생각한다. 앞으로도 국내 고객사와 함께 미래 인재 양성에 힘쓸 수 있는 기회가 있다면 적극 참여할 것”이라고 밝혔다.
미래에셋증권의 최현만 회장은 “글로벌 경기가 녹록치 않은 상황이며, 이런 상황은 내년까지 계속 이어질 것으로 보인다. 다만 금융업은 데이터, 그리고 변동성에서 기회를 찾는 비즈니스다. 따라서 이런 위기 상황은 기회이기도 하다”며, “이런 어려운 상황에서는 긍정적이고 적극적인 자세가 필요하며, 이런 적극적인 자세로 이번 공모전에 응모하고 예선, 본선, 결선을 거쳐 수상한 여러분들의 적극성이 이 사회를 이끌어 나가는 힘이 될 것”이라며 공모전 응모자들의 미래를 응원했다.
우리 노력의 결과가 반드시 어딘가에서 사용될 수 있기를 바라며 만들었다

성균관대학교 통계학과 장이준, 박지민, 조수미 학생으로 구성된 러닝머신 팀은 ‘Table Extraction model 및 이미지 처리 기반 ESG 데이터 수집 자동화와 ESG 등급 평가모델 개발’이라는 아이디어를 구현해 ‘미래에셋증권 2022 빅데이터 페스티벌’에서 대상을 수상했다.
각 기업의 ESG 보고서에서 도표를 이미지 추출해 이미지 처리 모델을 적용하는 방식으로 데이터를 수집하는 독특한 방식이 눈길을 모았던 러닝머신 팀은, 높은 완성도와 깔끔한 발표로 눈길을 모았다. 대상을 수상한 러닝머신 팀에게 이번 빅데이터 페스티벌에 대해 물어봤다.
이번 프로젝트를 진행하면서 데이터 수집 자동화가 어려웠다고 했는데, 이유는 무엇인가.
각 기업에 대한 ESG 등급 예측을 위해서는 E, S, G 각 부문에 대한 데이터 수집이 필수적이었다. 기존 ESG 데이터 수집 방법은 대부분 수기로 진행됐는데, 해당 방식은 과도한 인력과 비용이 요구되기 때문에 수집 과정의 자동화가 이번 분석의 핵심이었다.
다만 ESG라는 개념 자체가 등장한 지 오래되지 않아 각 기업의 ESG 데이터를 모아서 제공하는 곳을 찾을 수 없었다., 따라서 다양한 소스로부터 데이터를 수집하기로 결정했는데 이 과정에서 수많은 시행착오를 겪었다. 일례로, 수집하고자 했던 파생변수인 산업재해율, 임직원 봉사시간 등과 같은 데이터는 DART와 같은 소스에서는 찾아볼 수 없어 기사 데이터로부터 해당 데이터를 추출하려 했지만, 기사 데이터의 특성상 모든 기업 그리고 모든 연도에 대한 데이터가 존재한다는 보장이 없었다.
이에 컴퓨터비전 기술을 이용해 아예 ESG 보고서로부터 표 데이터를 자동적으로 추출하는 아이디어를 도출했다. 이렇게 어떤 소스로부터 데이터를 수집할 수 있는지, 그리고 해당 수집 과정을 자동화할 수 있는지 확인하고 검증하는 과정이 이번 공모전 진행에서 가장 어려운 부분이었다.
구글 클라우드의 버텍스 AI와 빅쿼리를 어떤 부분에 적용했는가.
공모전의 핵심 관건이었던 데이터 수집의 자동화를 위해 버텍스 AI에서 데이터 수집(크롤링, API, Table extraction 등) 코드를 작성한 후 쿼리문을 모듈화해 빅쿼리에 자동으로 저장하도록 파이프라인을 작성하는 데 사용했다. 이후 데이터 전처리, 모델링 코드 모두 버텍스 AI를 사용해 진행했다.
다른 팀에서는 사용하지 않는 이미지 처리 모델을 사용했는데, 어려움은 없었나.
이미지 처리 모델을 사용하기 위해 해당 분야의 SOTA(State-Of-The-Art) 모델들을 모두 찾아보고, 논문에 적힌 성능 외에도 실제 성능, 그리고 최적의 실행시간을 프로파일링하기 위해 테스팅을 진행했던 과정이 가장 어려웠다.
아쉬운 점이 있다면, 실제 학습데이터를 사용해 이미지 모델을 새로 학습시키려 했지만 시간과 학습 자원의 부족으로 사전학습된 모델을 사용하는 것에 그쳤다는 점이다.
멘토링 과정에서 어떤 도움을 받았나.
우리 팀이 ESG 분야의 전문가도 아니고, 제대로 된 데이터 공모전 출전이 이번이 처음이다 보니 어떤 방식으로 심사위원에게 우리의 분석 과정을 전달해야 하는지에 대한 궁금증이 많았다. 멘토링 과정에서 들은 “발표에서는 무작정 분석한 모든 내용을 넣으려고 하기 보다는 스토리텔링이 중요하다”는 얘기가 전체적인 발표 흐름을 구성하는 데 정말 큰 도움이 됐다.
그리고 현업에서 일하고 있는 멘토분 입장에서 우리 팀의 분석과 활용방안에 대한 직설적인 피드백들을 받을 수 있었고, 이를 기반으로 좋은 결과들을 얻을 수 있었다. 피드백 이외에도 현업과 관련된 많은 유익한 얘기를 들었던 것이 고마웠고, 또 기억에 남는다.
이번 공모전을 통해 가장 크게 배운 것은 무엇인가.
데이터 분석 경험, 데이터 파이프라인 작성 경험, 등 모든 것들이 중요하다고 생각되지만 이번 공모전으로부터 가장 크게 배운 것은 바로 우리의 데이터 분석이 ‘사장되지’ 않게 하는 법이었다. 이는 사실 수많은 데이터 분석가들이 마음 한켠에 품고 있는 생각일 것이다.
연구목적이 아닌 이상, 데이터 분석 자체가 아무리 재미있어도 결국 시장 어딘가에서 사용되지 않는다면, 사실상 자기계발을 위한 데이터 분석에 지나지 않을 것이다. 이런 생각에서 과연 우리가 개발한 ESG 등급 평가모델이 어느 곳에 적용될 수 있는지에 대한 고민을 지속적으로 이어나갔고, 결국은 시장의 요구를 반영한 ‘ESG 데이터 종합 플랫폼’이라는 서비스를 고안해낼 수 있었다.
이번 분석을 통해 조금이나마 세상에 영향을 주는 분석을 할 수 있어서 매우 뜻 깊은 경험이었다고 생각하고, 이런 기회를 마련해준 미래에셋증권과 구글 클라우드 측에 다시 한번 감사의 인사를 전달하고 싶다.
전자신문인터넷 유은정 기자 (judy6956@etnews.com)