국내 인공지능(AI) 파운데이션 모델 개발 경쟁이 심화되는 가운데, 학습에 필요한 데이터 확보의 어려움이 새로운 문제로 떠오르고 있다. 이러한 상황 속에서 과학기술정보통신부는 1,100만 건에 달하는 방대한 양의 공공저작물을 AI 학습용으로 개방함으로써, 국내 AI 산업의 경쟁력 강화 및 기술 자립에 기여하고자 한다.
지금까지 많은 AI 개발사들은 해외에서 공개된 데이터셋이나 상업용 데이터를 활용해 모델을 개발해왔다. 하지만 이는 데이터의 질적, 양적 한계뿐만 아니라, 데이터 확보에 드는 비용 부담과 저작권 이슈 등 다양한 문제점을 야기해왔다. 특히, 최근 AI 파운데이션 모델 개발이 국가적인 차원에서 중요하게 다루어지면서, 독자적인 AI 모델을 구축하기 위한 양질의 학습 데이터 확보는 필수적인 과제가 되었다.
이에 과학기술정보통신부는 이러한 데이터 부족 문제를 해결하기 위한 구체적인 방안으로 1,100만 건의 공공저작물을 AI 학습용으로 공개하기로 결정했다. 이는 정부가 보유하고 있는 다양한 분야의 저작물들을 AI가 학습할 수 있도록 데이터화하고, 이를 필요로 하는 개발자들이 자유롭게 활용할 수 있도록 지원하는 것을 의미한다. 공개되는 공공저작물에는 문학, 예술, 학술 등 다양한 분야의 자료들이 포함될 것으로 예상되며, 이는 AI 모델의 이해력과 창의성을 높이는 데 크게 기여할 것으로 기대된다.
이번 공공저작물 개방은 국내 AI 파운데이션 모델 개발의 질적, 양적 성장을 견인할 뿐만 아니라, 데이터 저작권 문제로 인한 법적, 윤리적 논란을 상당 부분 해소할 수 있을 것으로 전망된다. 양질의 학습 데이터를 안정적으로 확보하게 된 국내 AI 개발사들은 더욱 혁신적인 AI 모델 개발에 집중할 수 있게 되며, 이는 궁극적으로 AI 기술 강국으로서 대한민국의 위상을 더욱 공고히 하는 밑거름이 될 것이다.

