서 론
2025년 현재 러시아-우크라이나 전쟁의 장기화와 트럼프 2기 행정부 출범 등의 영향으로 인공지능 기술 활용이 확대되고 글로벌 공급망이 재편되며 석유가스자원에 대한 인식 변화가 나타나고 있다. 이러한 국제 정세의 변화 속에서 Ahn(2025)은 2025년 지질자원 분야와 관련된 정부 정책으로 인공지능 대전환, 기후·환경기술, 광물자원 공급망, 에너지안보 등을 제안하였다. 2024년 12월 26일 발표된 제4차 광업기본계획 보도자료에서도 미국과 중국의 패권 경쟁, 탄소중립, 디지털전환 등 글로벌 환경 변화와 국내광업 분석에 기반하여 산업원료 광물의 안정적 공급과 지속가능한 광업 생태계를 조성한다고 명시하였다. 제4차 광업기본계획 보도자료와 달리 제3차 광업기본계획 보도자료에서는 글로벌 환경 변화에 대한 언급은 없었다. 2020년 1월 3일에 발표된 제3차 광업기본계획에서 국내 광업의 현주소 부분의 참고자료로 미국 중국 무역분쟁 장기화, 세계 경제성장 둔화, 제4차 산업혁명, 저탄소 성장기조, 에너지 전환정책 등이 제시되었다. 2014년 9월 19일에 발표된 제2차 광업기본계획 보도자료에서는 광물가격 급등, 기술 발전에 따른 국제 환경 변화와 함께 수입의존도 심화, 영세한 광업 규모의 국내 상황에 기반하여 광업기본계획 주요 추진전략을 도출한다고 하였다.
제4차 광업기본계획의 4대 추진전략은 핵심광물 공급기반 강화, 디지털 기반 광업 경쟁력 제고, 광산 안전 및 탄소중립 선도, 지속 가능한 광업생태계 조성이다. 제3차 광업기본계획에서도 국내 광업의 지속가능한 성장기반 확보라는 목표 아래, 산업원료 광물의 안정적 공급, ICT 적용 확대 등 광업계 생산성·수익성 제고, 광산 안전 및 환경관리 강화를 3대 기본방향과 추진전략으로 제시하였다. 제2차 광업기본계획의 5대 추진전략은 광물자원 개발의 지속가능성 제고, 광업 전주기와 ICT 융합, 광물자원 안보실현, 광산안전 관리강화, 지원체계 효과성 제고이다. 제4차 광업기본계획에서 탄소중립, 제3차 계획에서 환경 키워드가 나타났을 뿐, 이전과 현재의 광업기본계획 비전 혹은 목표, 기본방향, 추진전략 수준에서는 큰 차이가 없다. Kim et al.(2007)에서 제1차 광업기본계획인 국내광업발전기본계획(2007-2016)에 대해 원료자원의 안정 확보와 광해방지를 위한 정책으로 본 것에 비하면, 이후 계획들은 광해에서 광산 안전으로 키워드를 바꾼 차이가 있다. Kim et al.(2007)에서 2007년 9월 확정한 국내광업발전기본계획의 목표 또한 산업원료 광물의 안정공급으로 제시하고, 세부 추진 목표로 경제적 가치있는 부존자원의 효율적 개발, 기술역량 강화를 통한 산업경쟁력 제고, 광산 재해 예방 및 광해 관리 강화, 광업환경 변화에 따른 지원제도의 개선으로 제시하였다.
본 연구는 이러한 배경을 바탕으로 제4차 광업기본계획이 이전 계획들과 어떤 점에서 변화했는지 텍스트 데이터 분석을 통해 살펴보고자 한다. 분석 대상은 2014년 발표된 제2차, 2020년 발표된 제3차 광업기본계획이다. 2007년 발표된 2016년 목표의 국내광업발전기본계획은 10년의 수립 주기와 목표연도 차이로 인해 분석에서 제외하였다. 자연어처리(Natural Language Processing)는 텍스트, 음성 등의 인간 언어인 자연어(Natural Language)를 기계인 컴퓨터가 이해할 수 있게 처리하여 기계번역, 문서요약/분석, 대화 등 다양한 작업을 수행하게 하는 연구 분야이다. 본 연구에서는 자연어처리를 통해 광업기본계획별 문서 전체 단어를 추출하여 단어 빈도 등 텍스트 데이터 분석한다. 자연어처리는 일반적으로 방대한 비정형 텍스트를 대상으로 적용하지만, 본 연구에서는 문서 전체의 페이지별 분석을 통해 합산한 결과를 도출한다. 그리고 텍스트 데이터 분석 방법 중 2003년 제안된 주제 분석 방법의 고전적 알고리즘인 LDA(Latent Dirichlet Allocation) 토픽모델링(Topic Modeling)을 수행한다. 이 방법은 텍스트 문서를 여러 주제의 혼합물로 보고, 문서의 주제 분포 등을 추론하는 자연어처리 방법이다. 토픽모델링을 위해서 주제의 숫자를 지정해야 하는데, 주제의 개수에 따라 중요한 주제를 빠트릴 수도 있으며 의미없는 주제가 나타날 수도 있다. 토픽모델링에서 주제 숫자는 결과에 큰 영향을 미친다. 따라서 본 연구는 토픽모델링의 주제 수 결정과 주제 간의 분리성 평가에 주목한다. 다음의 본론에서 기존의 논문, 특허 자료를 대상으로 분석한 사례를 비롯하여 보고서 대상으로 PDF 텍스트 추출, 인터뷰/기사 텍스트 분석 등의 기존 연구를 살펴 보고 본 연구의 적용 방법을 제시한다. 그리고 광업기본계획의 키워드 및 주제 변화 결과와 결론을 제시한다.
본 론
기존 연구 및 연구 방법
한국자원공학회지를 비롯하여 여러 학술지에서 텍스트 데이터 분석, 자연어처리 방법을 적용한 논문이 발표되고 있다. 광해방지사업에서 정보통신기술 및 증강현실기술 적용을 분석하기 위해 Kim et al.(2024)는 광업과 센싱 키워드로 수집한 55건 특허를 대상으로 제목, 요약, 대표 청구항의 텍스트 정보를 추출하여 빈도수 기준 상위 50개 단어를 5개 분류로 구분하여 제시하였다. Kim et al.(2024)은 텍스트 정보 추출 방법을 따로 제시하지 않았으며, 단어의 카테고리 분류 기준은 연구자가 정성적으로 결정하였다. Lee et al.(2023)는 사격장 토양오염에 대한 연구동향 파악을 위해 3,356건의 사격장 관련 SCOPUS 논문을 대상으로 빈도수 기준 상위 50개 키워드 및 4개 군집(군집별 10개 키워드)을 분석하였다. 또한 Lee et al.(2023)은 137건의 사격장 관련 국내 학위논문을 대상으로 3개 군집으로 나누어 분석하였다. Lee et al.(2023)는 RHINO 프로그램을 이용하여 단어 출현 빈도를 도출하였으며, 군집 수 결정 방법을 따로 제시하지 않고 VOSviewer 프로그램으로 제시된 군집 결과를 분석하였다.
Han and Suh(2024)은 EfficientNet-B3 딥러닝 모델, PyMuPDF(fitz) 라이브러리, 광학문자인식 엔진을 사용한 파이썬 프로그램을 통해 폐광산 지반안정성 조사보고서에서 시추주상도를 인식하여 5개 유형으로 자동분류하고 PDF 텍스트를 추출하였다. Park et al.(2021) 또한 시추주상도 자동 디지털 DB화 연구에서 ResNet 34 딥러닝 모델, PDF 텍스트 추출 라이브러리를 적용한 파이썬 프로그램을 통해 시추주상도를 자동분류하고 PDF 텍스트를 추출하였다.
Lee and Park(2022)는 해상풍력에 대한 6건의 주민 인터뷰 텍스트를 대상으로 NetMiner 프로그램으로 단어 빈도, 연결중심성(Degree Centrality)과 매개중심성(Betweenness Centrality), 토픽 모델링 분석하였다. 연결중심성은 한 단어가 여러 다른 단어와 직접 연결되는지를 나타내며, 매개중심성은 한 단어가 다른 단어 연결 사이에 위치하는 정도를 나타낸다. Lee and Park(2022)의 토픽모델링 분석에서 주제 수 결정 방법을 제시하지 않고 지역별 각각 4개 주제로 분석하였다.
Jeong and Yi(2025), Kim(2024), Kwon and Kim(2023)은 각각 자율주행차 기사, 리빙랩 국내논문, ChatGPT 기사를 대상으로 토픽모델링을 수행하였으며, 일관성(Coherence)와 혼란도(Perplexity)를 분석하여 최적 주제 수를 결정하였다. Gan et al.(2024) 또한 일관성와 혼란도로 최적 주제 수를 결정하였으며 주제 간의 독립성과 분리성 평가를 위해 코사인 유사도(Cosine Similarity)를 적용하였다. Nam and Choi(2023) 또한 토픽모델링을 통해 자동차용 반도체의 주요 기술을 분석하고, 주제 간의 유사도를 판단하기 위해 코사인 유사도를 측정하였다. 앞서 서론에서 제시한 바와 같이 해당 토픽모델링 방법은 텍스트 문서를 여러 주제의 혼합물로 본다. 따라서 문서의 주제 분포(topic distribution)를 기반으로 각 문서에 대해 각 주제가 얼마나 비중 있게 나타나는지를 확률로 나타내어 중요도를 계산한다. 혼란도는 주제와 주제별 단어의 확률을 고려하여 단어 예측의 부정확한 정도를 나타낸 것으로 혼란도가 낮을수록 해당 모델이 문서를 잘 이해한다고 해석한다. 일관성은 주제별 단어 집합을 대상으로 해당 주제의 상위 단어들의 동시출현(co-occurrence) 빈도를 통해 문서에서 얼마나 같이 등장하는지를 나타낸다. 코사인 유사도는 주제의 단어 벡터를 통해 계산하는 두 주제 간의 코사인 값으로 1은 완전히 동일하며 0은 완전히 무관함, ‒1은 완전히 반대임을 의미한다.
본 연구는 단어 빈도, 연결중심성, 매개중심성 분석을 통해 각 광업기본계획의 중요한 단어들을 도출하여 분석한다. 또한 주제 수 결정 과정을 포함한 토픽모델링을 적용하여 주제 수의 변화에 따른 일관성, 혼잡도를 살펴보고 이를 바탕으로 최적 주제 수를 결정한다. 최적 주제 수에 기반하여 각 광업기본계획의 주제별 중요도 및 주제별 키워드를 도출하여 분석하며, 코사인 유사도를 통해 도출된 주제 간의 분리성을 평가한다. 본 연구에서는 각 광업기본계획의 전체 문서를 분석 대상으로 하므로 각 문서를 페이지별로 추출하여 페이지로 구분된 텍스트에서 특정 주제가 나타날 확률들을 평균하여 주제의 중요도를 비교한다. 이러한 토픽모델링 기반 분석을 통해 기존 광업기본계획에서 제시하지 않았던 정책별 우선순위를 정량적으로 도출하여 분석할 수 있다.
광업기본계획 키워드 및 주제 변화 분석
분석 대상인 광업기본계획은 제2차 광업기본계획(2024년 목표), 제3차 광업기본계획(2029년 목표), 제4차 광업기본계획(2034년 목표)이며, 각각 문서 전체 단어를 추출하여 명사만 분석하였다. 적용한 파이썬 라이브러리는 페이지별 PDF 텍스트 추출을 위한 pdfplumber, 한국어 형태소 분석 등 자연어처리를 위한 koNLPy, 토픽 모델링 생성을 위한 Gensim, 데이터 처리를 위한 pandas, 그래프 및 시각화를 위한 matplotlib, pyLDAvis 등이다.
전체 명사인 단어 수는 제2차 광업기본계획 4,217개, 제3차 광업기본계획 3,793개, 제4차 광업기본계획 6,666개로 제4차 계획에서 더 많은 단어 숫자를 보였다. 중복을 제외한 고유 단어 수, 빈도 3 이상 단어 수, 빈도 5 이상 단어 수, 빈도 10 이상 단어 수 또한 제4차 계획이 많이 나타났다(Table 1). 제2차 광업기본계획의 상위 15개 단어는 광산, 광물, 광업, 개발, 기술, 자원, 추진, 계획, 과제, 지원, 관리, 안전, 수립, 세부, 산업이다(Table 2). 제3차 광업기본계획의 상위 15개 단어는 광산, 광물, 개발, 광업, 지원, 안전, 국내, 생산, 관리, 개선, 강화, 금속, 기술, 환경, 계획으로 안전 키워드의 빈도가 높아졌으며 국내, 생산, 금속, 환경 등의 키워드가 상위 15개 단어에 나타났다(Table 3). 제4차 광업기본계획의 상위 15개 단어는 광산, 광물, 광업, 국내, 개발, 산업, 핵심, 추진, 확대, 기술, 지원, 자원, 생산, 강화, 비축으로 제2차와 제3차 계획의 상위 15개 단어에 없었던 산업, 핵심, 비축 등의 단어가 나타난 특징을 지닌다(Table 4). 제2차 및 제3차 계획에서 제4차 계획보다 더 많은 빈도수를 보인 단어는 관리, 계획, 안전이다. 그 외 단어 중에서 제4차 계획보다 제2차 계획에서 더 많은 빈도수를 보인 단어는 전략, 수립, 탐사 등이며, 제3차 계획에서 더 많은 빈도수를 보인 단어는 금속, 장비, 갱내, 광종이다.
Table 1.
Word Frequencies in the 2nd, 3rd, and 4th Basic Mining Plans
Table 2.
Top 15 Frequent Words and their Degree and Betweenness Centralities in the 2nd Plan
Table 3.
Top 15 Frequent Words and their Degree and Betweenness Centralities in the 3rd Plan
Table 4.
Top 15 Frequent Words and their Degree and Betweenness Centralities in the 4th Plan
연결중심성과 매개중심성 기준으로는 제2차 광업기본계획에서 빈도수 기준 상위 15개에 속한 단어인 계획, 과제, 안전, 수립, 세부 등이 빠지고 국내, 확대, 생산, 확보, 강화, 핵심 등의 단어가 포함되었다(Table 2). 제3차 광업기본계획에서 연결중심성과 매개중심성을 살펴보면 기존의 빈도수 기준의 상위 15개에 속한 단어인 안전, 관리, 개선, 금속 등이 빠지고 빈도수 상위 15개에서 나타나지 않았던 확대, 추진, 산업, 자원, 확보 등의 단어가 나타났다(Table 3). 특히 제3차 계획의 매개중심성 기준 상위 15번째 단어로 석회석이 나타났다. 제4차 광업기본계획에서는 연결중심성과 매개중심성 기준 모두 상위 15개 단어에서 빈도수 기준 상위 15번째였던 비축이 빠지고 확보가 포함되었을 뿐 나머지 단어는 동일하게 포함되었다(Table 4). 빈도 수 기준 상위 15개 단어에 제3차 계획만 자원, 추진 키워드가 없었으나 연결중심성과 매개중심성 기준으로는 제3차 계획 또한 자원, 추진이 상위 15개 단어에 포함되었다. 앞서 서론의 광업기본계획 기본방향, 추진전략에서 제4차 광업기본계획에서 탄소중립 키워드가 나타났음을 확인하였다. 하지만 제4차 계획의 탄소, 중립 키워드는 빈도 기준 상위 39번째, 84번째 단어이고, 연결중심성 또한 빈도와 비슷한 순위이며 매개중심성 순위는 훨씬 더 낮다. 제3차 계획에서 환경은 연결중심성 기준 상위 26번째 단어이나 빈도와 매개중심성 기준 상위 15개 단어에 속한다. 이는 제2차와 체4차 광업기본계획에서는 보이지 않는 특징이다.
주제 수의 변화에 따라 일관성이 가장 높게 나타난 주제 숫자는 제2차 광업기본계획에서 8개, 제3차 광업기본계획과 제4차 광업기본계획에서 10개로 나타났다(Table 5). 하지만 제3차와 제4차 계획 모두 중요도 0.1%인 단어로 구성되는 무의미한 주제가 나타났다. 제3차 계획의 경우 9개 주제가 일관성이 두 번째로 높으며 혼잡도는 10개 주제보다 더 낮아 적절한 주제 숫자로 볼 수 있다. 하지만 제4차 계획의 경우 일관성이 두 번째로 높은 것은 3개 주제이며 고유 단어 수 1,254개의 자료에서 3개 주제로 분석하는 것은 무리가 있어, 일관성과 혼잡도를 고려해서 8개 주제로 정하여 분석한다. 제3차 계획 9개 주제와 제4차 계획 8개 주제 모두 중요도 0.1% 이상의 유효한 단어를 가지는 주제들로 나타났다.
Table 5.
Coherence and Perplexity by Plan
제2차 광업기본계획의 8개 주제에서 주제별 중요도는 주제1의 광업-계획-전략이 0.25로 가장 높게 나타났으며 주제4 자원-광물-기술이 0.18로 그 다음 중요도가 높은 주제이다(Table 6). 이후 중요도 순으로 주제2 광산-인력-생산, 주제7 비축-금속-광종, 주제5 안전-광산-기술, 주제8 광업-광산-지원, 주제6 광산-개발-융합, 주제3 성과-계획-수립으로 나타났다. 제2차 계획의 주제 간 코사인 유사도는 주제1과 주제3이 0.65로 다소 높게 나타났으며 그 외에는 0.18에서 0.55에 속한다(Fig. 1). 주제1과 주제3이 주제간 유사성은 있지만 주제1은 광업 기본계획 수입에 대한 전략사항 및 과제이며 주제3은 성과, 금속 키워드로 차별화된다.
제3차 광업기본계획의 9개 주제에서 주제별 중요도는 주제6 광산-광물-지원이 0.26으로 가장 높았으며, 주제1 국내-광업-계획, 주제3 광산-관리-비축, 주제5 광물-생산-수요, 주제8 광산-안전-인력, 주제2 광물-소재-기술, 주제9 금속-생산-개발, 주제4 자원-개발-북한, 주제7 교육-장비-안전교육 순서로 중요도를 보였다(Table 6). 제3차 계획의 주제 간 코사인 유사도는 주제6과 주제8이 0.65로 주제3과 주제6이 0.62로 다소 높게 나타났으며 그 외에는 0.03에서 0.59에 속한다(Fig. 1). 주제3, 주제6, 주제8이 광산-안전 키워드를 공유하지만 주제3의 중요키워드는 비축이며 주제6은 안전, 주제8은 인력을 중요 키워드로 볼 수 있다.
제2차 계획에서 주제1과 주제5에서 안전 키워드가 나타났으며 주제5의 첫 번째로 중요한 단어가 안전이다. 제3차 계획에서는 주제6과 주제7의 안전교육 및 안전 키워드가 나타났으며 주제8에서 안전이 두 번째로 중요한 단어이다. 제3차 계획은 9개 주제로 세분화되어 안전과 교육이 별도 키워드로 나온 특징이 있다. 또한 제3차 계획에서는 제2차 계획에서 중요하게 나타나지 않았던 북한, 소재 키워드가 나타난 특징이 있다. 또한 제2차 계획의 주제6 광산-개발-융합에서 10번째 중요한 단어로 ICT가 나타났으며 제3차 계획의 주제7 교육-장비-안전교육에서 7번째 단어로 시뮬레이터, 15번째 단어로 가상 키워드가 나타났다. 제3차 계획에서 주제2 광물-소재-기술에서 중요도 10번째 이후의 단어에서 제철, 석회석이 나타났으며 주제9 금속-생산-개발에서 8번째 중요한 단어로 석회석이 키워드로 나타났다.
제4차 광업기본계획의 8개 주제에서 주제별 중요도는 주제5 광물-광업-광산-개발로 0.37이 나왔다. 그 다음은 주제8 국내-광업-광산-석회석이며 그 이후 순서는 다음과 같다(Table 6). 주제7 비축-광물-수급-핵심, 주제4 광산-광물-생산-구축, 주제1 광산-재해-장비-교육, 주제6 광산-스마트-마이닝-기술, 주제2 외국인-교육-고용-인력, 주제3 국내-광업-홍보-지역이다. 제4차 계획의 주제 간 코사인 유사도는 주제5과 주제8이 0.60로 다소 높게 나타났으며 그 외에는 0.17에서 0.58에 속한다(Fig. 1). 주제5과 주제8이 국내 광업, 광산에 대한 주제간 유사성은 있지만 주제5은 핵심산업자원, 재자원화에 중점이며 주제8은 석회석, 비금속, 금속 등 각각 산업 키워드로 차별화되어 있다.
Table 6.
Topics and their weights by Plan
제2차 계획의 주제7, 제3차 계획의 주제3, 제4차 계획의 주제7과 같이 비축 키워드의 주제는 계속 도출되었다. 제4차 계획의 주제7의 비축 키워드는 기존의 제2차, 제3차 계획의 금속 키워드가 아니라 수급, 핵심, 희소금속 키워드와 나타난 특징이 있다. 제4차 계획에서는 주제6에서 스마트 마이닝, 디지털화, 무인 시스템 등 신기술에 대한 별도 주제가 나타난 특징이 있다. 제2차 계획의 주제6에서 ICT와 융합 기술 키워드가 나타났으나 세부 기술이 나타나지 않았으며, 제3차 계획의 주제7에서 시뮬레이터, 가상 키워드가 나타났으나 교육에 중점이었다. 제4차 계획에서는 기존 계획에서 중요하게 나타나지 않았던 주제2의 외국인 고용/교육, 주제3의 광업 홍보가 중점단어이며, 주제4 광산-광물-생산-구축에서 탄소, 수출 등 새로운 키워드가 나타났다. 제4차 계획의 빈도 분석에서 스마트 단어는 빈도 수 기준 상위 47번째 단어이며, 연결중심성 기준 상위 52번째, 매개중심성 또한 61번째 단어라 단어 기준 분석에서는 중요하지 않은 단어였다. 외국인 단어 또한 빈도 수 기준 상위 90번째, 연결중심성 기준 상위 117번째, 매개중심성 113번째 단어였다.
결 론
본 연구는 2014년, 2020년, 2024년에 발표된 제2차, 제3차, 제4차 광업기본계획을 대상으로 한국 광업정책의 변화를 분석하였다. 광업기본계획 문서에 대한 전체 단어 빈도 분석 결과는 다음과 같다. 2014년 발표된 제2차 광업기본계획의 빈도수 기준 상위 단어는 광산, 광물, 광업, 기술, 추진, 계획, 과제, 지원, 관리, 안전 등으로 세분화된 광업정책 측면보다는 계획의 체계화, 지원 중심인 단어가 상위로 나타났다. 2020년 발표된 제3차 광업기본계획에서는 제2차 계획보다 안전 키워드의 빈도 순위가 높아졌으며 광업 현장과 밀접한 생산, 환경, 금속 키워드가 빈도수 상위 15개 단어에 나타났다. 제2차와 체4차 계획과 달리 제3차 광업기본계획에서 환경 키워드는 빈도수와 매개중심성 기준으로 상위 15개 단어에 속한다. 이는 제3차 계획에서 환경 키워드가 여러 주제들과 관련 단어로 자주 나타난다는 것을 뜻한다. 서론에서 광업기본계획 비전/목표, 기본방향, 추진전략에 대한 검토로 제3차 계획에서 환경 키워드가 나타났음을 확인한 바 있다. 제3차 계획의 광산안전 및 환경관리 강화에 대한 추진과제는 광산안전 관련 제도 개선, 광산안전 교육환경 개선, 미세먼지 저감 등 친환경 개발지원 강화, 광업 전주기 환경관리 및 사후활용 촉진으로, 해당 추진과제에서 환경 단어가 다수 나타났다. 제3차 계획의 광산 안전 관련하여 개발환경, 광업환경, 작업환경, 교육환경 등으로 환경 키워드를 찾아볼 수 있으며, 친환경 및 전주기 환경관리 관련하여 작업환경, 환경영향, 환경정책, 환경훼손, 환경규제 등으로도 나타났다.
2024년 발표된 제4차 광업기본계획에서는 제2차와 제3차 계획의 빈도수 상위 15개 단어에 없었던 산업, 핵심, 비축 단어가 나타난 특징을 지닌다. 이는 제4차 계획의 글로벌 원자재 공급망 불안 확대에 따라 국가 핵심광물 비축기지 구축 등 비축에 대한 정책 강화를 잘 나타내고 있다. 하지만 연결중심성과 매개중심성 기준으로는 비축 단어보다는 일반적 의미인 확보 단어가 상위 단어로 나타나, 전문가 분석 방법을 거치지 않는 단순 텍스트 데이터 분석에서는 의미있는 결과 해석을 위해 유의할 필요가 있음을 보여준다. 또한 광업기본계획 특성에 따라 광산, 광물, 개발 등 해당 분야에서 일반적인 단어가 최빈도로 나타났으며, 빈도 수 기준 상위 15개 단어에 제3차 계획만 자원, 추진 키워드가 없었으나 연결중심성과 매개중심성 기준으로는 제3차 계획 또한 자원, 추진이 상위 15개 단어에 포함되어 키워드 변화 분석에 한계가 있었다.
앞서 서론에서 제4차 광업기본계획에서 탄소중립 키워드가 나타났음을 확인하였으나 제4차 계획의 탄소, 중립 키워드는 빈도, 연결중심성, 매개중심성 모두 높지 않았다. 제4차 광업기본계획의 정책과제는 총 13개로 보도자료에서는 국내 핵심광물 탐사개발 활성화, 희소금속 비축 확대 및 재자원화 산업 육성, 스마트 마이닝 보급 및 소재가공 기술개발 강화, 석회석 가공 산업 클러스터 조성 및 친환경 광산개발 촉진, 광업 전문인력 양성 및 대국민 인식 제고를 강조했다. 세부적으로 제3차 계획과 차이를 살펴보면 원료광물의 안정적 공급 관련 북한 광물자원 개발협력이 빠지고 국내 재자원화 기반 조성이 새로운 추진과제로 제시되었다. 또한 기존 계획의 광산 안전 및 탄소중립 관련 미세먼지 저감 키워드가 빠지고 제4차 계획에서 석회석 그린 가공산업 클러스터 조성, 폐갱도 활용 CO2 지중 저장 추진과제가 새롭게 제시되었다. 또한 제2차 계획과 제4차 계획에서는 광석 재활용, 재자원화 단어를 과제 제목에 명시하였으나, 제3차 계획에서는 광물의 가치를 높이는 기술개발 강화라는 제목으로 제시되어 해당 세부 설명에서 폐금속자원의 재활용을 찾아볼 수 있었다. 본 연구의 단어 기반 분석 결과에서 탄소, CO2 단어가 의미로는 동일한 개념임에도 불구하고 다른 단어로 처리되어 제4차 계획에서 주요 단어로 나타나지 않았다. 또한 재자원화도 재활용과 다른 단어로 처리되어 재자원화, 재활용 또한 모든 계획에서 중요한 키워드로 분석되지 않았다. 하지만 주제 분석 결과에서는 제4차 계획의 가장 중요한 주제로 재자원화를 포함한 주제가 나타났으며 4번째로 중요한 주제로 탄소를 포함하는 주제가 나타났다.
각 계획별로 최적의 주제 수로 주제별 키워드를 도출한 결과에서는 앞서 빈도, 연결중심성, 매개중심성 기준의 텍스트 분석 결과보다 여러 유의미한 결과를 도출할 수 있었다. 제2차 광업기본계획에서는 광업 전략, 자원 기술, 광산 인력, 금속 비축, 광산 안전 등 기반 자원정책 성격의 주제가 중요하게 나타났다. 제2차 계획의 나머지 주제들 또한 지원, 계획, 수립 키워드로 기반 정책 마련 성격이었다. 제2차 계획에서는 광업 전주기와 ICT 융합이 추진전략의 하나로 제시되어 세부 실행과제로 탐사기술, 개발기술, 자원처리기술, 환경관리기술과 각각 ICT 융합을 제시한 특징이 있다. 이러한 특징은 제2차 계획의 주제 분석 결과 ICT를 포함한 광산-개발-융합 주제로 나타났다.
제3차 광업기본계획 또한 지원, 계획 키워드의 주제가 최상위의 중요 주제로 나타났으나 북한, 소재 기술, 인력 안전 교육 등의 남북 자원협력, 산업 전략, 인력 양성 주제가 부각된 특징이 있다. 계획의 문서를 세부적으로 살펴보면 제3차 광업기본계획의 북한 광물자원 개발협력은 제2차 계획의 세부 실행과제에도 북한 내 광물자원 남북 공동 개발로 제시되었다. 하지만 본 정량분석 결과로 제2차 계획보다는 제3차 계획에서 북한 주제가 핵심으로 나타났다.
제4차 광업기본계획은 수급 핵심 비축, 재해 교육, 스마트 마이닝, 외국인 고용, 지역 홍보 등 새로운 전략적 키워드가 포함되었다. 스마트 기술, 공급망 문제, 인력 구조 문제가 부각되어 제4차 계획에서는 고려해야 할 주제로 새로 부상했다. 앞서 제4차 계획의 정책과제에서 석회석 그린 가공산업 클러스터 조성으로 석회석 키워드가 나타남을 제시한 바 있다. 석회석 키워드는 제3차 계획에서 매개중심성 기준 상위 15번째 단어로 나타났으나 해당 계획에서 세부적인 정책으로 제시되지는 않고 국내 현황 등에서 전반적으로 나타났다. 하지만 제4차 계획의 주제 분석 결과에서는 석회석을 포함한 주제가 두 번째로 중요한 주제로 나타났다. 그리고 제4차 계획에서 세 번째로 중요한 주제는 비축 주제로, 앞서 제시한 제4차 계획의 단어 빈도 분석 결과와 마찬가지로 제4차 계획의 글로벌 공급망 불안에 대한 대응 정책을 잘 나타내고 있다. 본 연구에서는 주제 수의 변화에 따라 일관성, 혼잡도를 살펴보고 최적 주제 수를 결정했지만, 코사인 유사도를 통해 도출된 주제 간의 분리성을 평가한 결과 중복성이 있는 주제들도 나타난 한계가 있다.
기존 전문가 분석 방법은 광업기본계획의 수립배경, 추진전략, 추진과제 등을 개인 또는 집단으로 정성 분석하는 방법이었다. 본 연구는 광업기본계획 문서에 대한 텍스트 데이터 분석을 통해 전체 단어 빈도와 주제를 정량적으로 도출함으로써, 제2차부터 제4차 광업기본계획까지 변화 양상을 체계적으로 비교할 수 있었다. 각 계획에서 명시적으로 제시되지 않았던 정책과제 간의 우선순위를 도출할 수 있었다는 점에서도 기존 분석과 차별성이 있다. 본 연구의 자연어처리 적용은 3개 광업기본계획을 대상으로 시간 변화에 따른 키워드 및 주제의 진화 양상을 단어빈도, 토픽모델링을 통해 정량적으로 도출한 제한적인 적용사례로, 향후 무비판적 자연어처리 기법의 적용은 지양해야 한다. 본 연구의 결과는 향후 제5차 광업기본계획의 수립에서 정책 진화와 환경 변화를 반영한 정교한 정책 설계에 기여할 수 있다.



