기고
AGI 시대, 국립중앙도서관이 학습데이터의 핵심이다
인공지능(AI)의 발전 속도가 가속화되면서 인간과 유사한 수준의 사고 능력을 갖춘 범용인공지능(AGI, Artificial General Intelligence) 개발에 대한 관심이 높아지고 있다. AGI는 다양한 분야에서 스스로 학습하고 문제를 해결하며 창의적으로 사고할 수 있는 능력을 갖추는 것이 목표다. 이를 위해서는 방대한 데이터 학습이 필수적이며, 국립중앙도서관이 그 중심적 역할을 수행할 수 있다.
현재 AGI 개발을 위한 다양한 연구가 진행 중이며 이들은 방대한 양의 데이터를 학습하며 점점 더 높은 수준의 이해력과 추론 능력을 갖춰가고 있다. 그러나 AGI가 진정한 범용성을 확보하기 위해서는 단순한 데이터 축적을 넘어 신뢰할 수 있는 고품질의 학습데이터가 필수적이다.
AGI가 인간처럼 사고하려면 단순한 텍스트 데이터만이 아니라 다양한 분야의 자료를 포함하는 다중모달 데이터(Multimodal Data)가 필요하다.
국가적 차원의 방대한 지식 아카이브를 보유한 국립중앙도서관이 AI 학습데이터의 중심기관으로 적합하다는 점은 더욱 분명해진다.
국가적 차원의 방대한 지식 아카이브 보유
국립중앙도서관은 국내외에서 생산된 다양한 자료를 체계적으로 수집하고 보존해 온 기관으로 AI 학습에 필요한 방대한 데이터 자원을 확보하고 있다.
고서 및 근대문헌을 비롯하여 학술 논문, 연구 보고서, 신문, 정부 발간물 등 다양한 지식 콘텐츠를 보유하고 있으며 디지털화된 데이터도 지속적으로 축적하고 있다. 이러한 데이터는 AI 연구자들에게 신뢰할 수 있는 학습 자료를 제공할 뿐만 아니라 데이터의 품질과 정확성을 보장하는 데 기여할 수 있다.
특히 도서관의 사서들은 주제 분류, 메타데이터 생성 등의 오랜 경험을 바탕으로 학습데이터의 전처리 과정에서 필수적인 정제, 레이블링, 구조화 작업에 특화되어 있다. 이는 AI가 신뢰할 수 있는 학습데이터를 구축하는 데 필수적인 요소로, 국립중앙도서관이 단순한 데이터 제공 기관을 넘어 AI 학습데이터의 품질을 보장하는 핵심 역할을 수행할 수 있는 이유다.
더 나아가 국립중앙도서관은 단순한 데이터 보유 기관을 넘어, AI 학습데이터의 활용을 촉진하는 플랫폼으로서의 역할을 수행할 수 있다. 연구자 및 개발자들이 데이터를 효과적으로 활용할 수 있도록 오픈액세스(Open Access) 정책을 강화하고, AI 개발을 위한 실험적 공간을 제공하며, 국내외 연구기관과 협력하여 글로벌 AI 데이터 네트워크를 구축할 수 있다.
아울러 AI 학습데이터의 윤리적 활용과 데이터 품질 관리를 위한 기준을 마련하여 AI가 올바른 방향으로 발전할 수 있도록 지원하는 역할도 수행해야 한다.
AGI의 미래는 학습데이터의 품질과 신뢰성에 달려 있으며 그 중심에 국립중앙도서관이 있어야 한다. 방대한 자료를 체계적으로 보존하고 국가의 지식 자산을 관리하며 공공성을 기반으로 데이터를 개방할 수 있는 기관은 국립중앙도서관뿐이다.
AGI 시대, 지식의 미래를 책임질 기관
특히 국립중앙도서관이 보유한 데이터와 사서들의 전문성이 결합될 때 AI가 올바른 방향으로 발전하는 데 결정적 역할을 할 수 있다. 이제는 단순한 도서관의 역할을 넘어, 대한민국의 AI 경쟁력을 좌우할 핵심 기관으로서 국립중앙도서관이 나서야 할 때다. AGI 시대, 지식의 미래를 책임질 기관이 바로 국립중앙도서관이다.
