서 론
최근 심도 1 km 미만 천부지각의 지하공간은 이산화탄소 지중저장, 고준위 핵폐기물 처분시설, 지열개발 등 다양한 목적으로 개발되고 있다(Zhu et al., 2015; Li et al., 2016; Jo et al., 2019). 이러한 지하공간 개발에 있어 지각에 작용하는 현장응력(in-situ stress)을 파악하는 것은 지반 안정성 평가와 설계 최적화에 필수적인 요소이다(Heidbach et al., 2018).
천부지각에서의 응력장은 여러 지질공학적 방법을 통해 측정할 수 있으며, 대표적으로 수압파쇄법, 오버코어링법, 시추공 응력지시자 활용법 등이 있다. 이 중, 수압파쇄법과 오버코어링법은 정밀한 응력정보를 제공할 수 있는 방법이지만, 현장파쇄실험과 코어 회수 및 실험에 드는 비용과 시간이 크며, 지질조건이 측정결과에 영향을 미친다는 단점이 존재한다. 시추공 응력지시자 활용법은 시추공벽에서 발생하는 압축파쇄대(borehole breakouts)와 인장파쇄대(drilling-induced tensile fractures)를 분석하여, 비교적 신속하고 연속적으로 응력정보를 얻을 수 있는 장점이 있다(Chen et al., 1987; Lagraba et al., 2010; Zoback, 2010). 2016년 세계응력지도(world stress map)의 약 15%는 압축파쇄대를 활용한 응력분석결과에 기반하고 있으며(Heidbach et al., 2016), 국내에서도 포항 영일만(Chang, 2017)과 경주 일대(Yeom et al., 2023) 등의 시추공에서 압축파쇄대를 통해 응력방향을 추정한 사례가 보고된 바 있다.
압축파쇄대는 최소수평주응력이 작용하는 방향에서 국지적으로 응력이 집중되어 해당 부분의 암석강도를 초과할 때, 시추공벽 양쪽으로 대칭적인 파쇄대가 형성되며 발생한다. 초음파 영상검층자료에서 압축파쇄대는 낮은 진폭(amplitude)과 큰 주시(travel time)를 보이며, 파쇄대의 방위각과 폭은 각각 현장응력의 방향과 크기를 지시한다(Barton et al., 1988; Shamir and Zoback, 1992; Barton et al., 1997).
일반적으로 압축파쇄대를 검출하는 작업은 연구자가 이미지로그로부터 모든 압축파쇄대를 직접 판단하는 방법으로 수행된다. 이러한 작업은 파쇄대 판단에 있어 분석가의 주관성을 배제하기 어렵고, 고밀도 및 고심도 시추공자료의 경우 상당한 시간이 요구되는 문제점이 있다.
최근에는 수작업으로 진행되는 응력규명 작업의 한계점을 개선하고자 인공지능 알고리즘을 접목하는 연구가 진행되고 있다(Zhang et al., 2021; Alzubaidi et al., 2022; Yang et al., 2022; Olya et al., 2024). Dias et al.(2020)은 딥러닝기반의 객체탐지 알고리즘인 Fast R-CNN(region-based convolutional neural network)을 활용하여 이미지로그에서 압축파쇄대와 균열(fracture)을 자동으로 검출하는 모델을 개발하였다. 모델의 성능은 AUC(area under the receiver operating characteristic curve) 지표를 통해 평가되었으며, 압축파쇄대와 균열에 대해 각각 90%와 98%의 높은 검출성능을 보였다. Han et al.(2023)은 시추공 이미지에서 균열을 탐지하기 위해 Faster R-CNN을 도입하였다. 이 연구에서는 RPN(region proposal network)을 이용하여 균열의 크기와 형태를 고려한 앵커를 설정하였으며, 이를 통해 약 92%의 정확도로 균열을 검출하였다. 또한, 허프변환(Hough transformation)을 적용하여 검출된 균열의 경사각과 방향을 계산하였으며, 실제 분석결과와의 오차가 5° 이하로 나타났다. Du et al.(2023)은 Mask R-CNN을 사용하여 이미지로그에서 균열을 식별하는 연구를 수행하였다. 개발된 모델은 높은 정밀도로 균열을 검출하였으며, 코어자료와의 비교분석을 통해 검출결과의 신뢰성을 검증하였다.
앞서 언급된 연구들은 주로 객체탐지 알고리즘을 활용한 픽셀단위(2차원)에서의 상세분석에 초점을 맞춘 반면, Yeom et al.(2023)은 가용자료가 한정적인 경우를 고려하여 깊이단위(1차원) 분석으로 문제를 단순화한 연구를 수행하였다. 해당 연구에서는 머신러닝 알고리즘을 활용하여 이미지로그에서 압축파쇄대 발생심도를 검출하는 분류모델을 개발하였다. 혼동행렬(confusion matrix) 지표를 바탕으로 랜덤포레스트(random forest) 대비 XGBoost(extreme gradient boosting) 모델이 더 우수한 성능을 보임을 확인하였다. 이를 통해 머신러닝을 활용한 압축파쇄대 심도검출의 가능성을 입증하였으나, 압축파쇄대가 발생한 심도를 상당부분 미검출하여 전문가 분석 효율성을 높이는 데 한계가 존재하였다.
본 연구는 선행연구(Yeom et al., 2023)에서 드러난 한계를 보완하기 위한 후속연구이다. 이미지로그에서 연속된 심도의 진폭이 서로 상관성을 가짐에 따라, 특정 심도의 압축파쇄대 발생여부를 보다 정밀히 판단하기 위해서는 해당 심도뿐만 아니라 인근 여러 심도의 진폭을 함께 고려할 필요가 있다. 이를 위해, 본 연구에서는 시계열자료 분석에 강점을 가진 장단기기억(long short-term memory, LSTM)을 활용하여 연속된 여러 심도의 진폭을 기반으로 중앙심도의 압축파쇄대 발생여부를 판단하는 모델을 개발하고자 한다. 개발된 LSTM 모델의 성능은 선행연구(Yeom et al., 2023)에서 사용된 단일 심도기반의 XGBoost 모델과 비교되며, 혼동행렬을 통해 LSTM 모델의 성능 개선여부를 평가하고자 한다. 또한, LSTM 모델과 동일한 여러 개의 연속된 심도자료를 사용하는 XGBoost 모델을 추가로 개발하고 결과를 비교함으로써, 압축파쇄대 검출에 있어 LSTM의 우수성을 검증하고자 한다.
연구방법
연구자료
본 연구에서 사용한 자료는 한국지질자원연구원의 한반도 동남권 심부복합지구물리 모니터링 시스템 구축 연구사업에서 굴착된 시추공(A2)의 초음파 영상검층자료이다. 해당 시추공은 경상북도 경주시 일대에 위치하며(Fig. 1), 시추공벽 파쇄대 관찰을 위해 공벽에 초음파 펄스를 방출한 후 되돌아오는 파형을 기록하는 작업이 전 심도에 걸쳐 수행되었다.
이후, 전문가는 취득된 초음파의 진폭을 바탕으로 압축파쇄대가 확인된 심도는 1로, 나머지 심도는 0으로 구분하였다. 전문가 분석결과 압축파쇄대가 존재하는 심도를 포함하는 이미지로그를 Fig. 2에 도시하였으며, x축은 방위각(azimuth), y축은 깊이(m)를 나타낸다. A2공의 총 깊이는 약 1,000 m이나, 주로 840 m 이하의 심도에서 압축파쇄대가 나타나며, 940 m보다 깊은 심도에서 집중적으로 압축파쇄대가 관찰되는 것으로 확인되었다. 또한, 995–996.4 m 심도를 제외한 대부분의 심도에서 압축파쇄대는 단층 및 균열과 같은 취성구조와 혼재하여 나타난다.
딥러닝분석에 앞서 취득된 497,745개의 A2공 진폭자료에 대해, 선행연구(Yeom et al., 2023)에서 시추공 특성을 고려하여 수행한 자료 전처리과정을 동일하게 적용하였다. 전처리과정은 총 세 가지로 구성된다(Fig. 3, 파란색 영역). 첫째, A2공 자료의 심도간격을 0.002 m에서 0.01 m로 보정하였다. 둘째, 취득된 자료에서 음수의 진폭은 모델학습에 혼동을 일으킬 수 있는 결측치로, 음수값을 포함하는 37개의 심도자료를 제거하였다. 마지막으로 케이싱(casing) 끝단 위치(12.457 m)를 참고하여 12.5 m 상부구간에 해당하는 자료를 제거하였다. 이는 Fig. 2의 12–13 m 심도에 대한 이미지로그에서 볼 수 있듯이 케이싱구간과 나공(open-hole)구간의 진폭이 다른 양상을 보이기 때문이다.
Table 1은 A2공 자료에 앞서 언급한 전처리과정을 적용한 결과이다. 전처리된 자료는 0.01 m와 2.5°의 심도 및 방위 해상도에 따라 99,090 × 144의 크기로 구성되며, 최소 35에서 최대 2,724, 평균 1,844.33의 진폭을 갖는 것으로 분석되었다. 99,090개 자료에서 압축파쇄대가 확인된 심도는 1,896개로, 전체 자료의 약 1.9%에 해당한다.
Table 1.
검출모델 알고리즘
본 연구에서는 딥러닝 알고리즘인 LSTM을 활용하여 압축파쇄대 발생심도 검출모델을 개발하였다. 선행연구인 Yeom et al.(2023)에서는 머신러닝 알고리즘인 랜덤포레스트와 XGBoost를 활용하였으며, XGBoost가 향상된 압축파쇄대 깊이 검출성능을 보였다. 따라서 본 연구에서는 LSTM에 대한 비교군으로 XGBoost를 사용하였다.
XGBoost는 gradient boosting 기법을 개선한 의사결정나무(decision tree)기반 앙상블 알고리즘이다. 먼저 Gradient boosting 기법은 이전 약한 학습기(weak learner)에서의 잔차(residual)를 순차적으로 줄여가며 강력한 학습기(strong learner)를 구성한다. 구체적으로, 경사하강법(gradient descent)을 통해 이전 학습기에서 나타난 잔차의 미분값이 작아지는 방향으로 가중치를 업데이트하여 새로운 학습기를 생성해 나간다(Friedman, 2001).
XGBoost는 gradient boosting에 과적합을 방지하기 위한 매개변수(λ, γ)가 추가된 알고리즘이다. 의사결정나무기반 알고리즘에서는 최적의 분할조건을 선정하는 것이 가장 중요하며 XGBoost는 식 (1)의 gain이 큰 조건으로 의사결정나무를 분기시킨다. 이 과정에서 정규화(regularization) 매개변수인 λ와 γ를 설정할 수 있으며, 해당 매개변수들은 모델의 복잡성을 조절하여 과적합(overfitting)을 방지하는 역할을 한다(Chen and Guestrin, 2016; Hwang et al., 2018; Lee et al., 2024).
여기서 Similarity scoreLeft와 Similiarity scoreRight는 분기된 각 노드의 similarity score를 의미하며, Similarity scoreRoot는 분기되기 이전 노드의 similarity score를 나타낸다.
이러한 특징으로 인해 XGBoost는 비선형 및 고차원 자료에서도 높은 분석성능을 보이는 것으로 알려져 있다(Liu et al., 2024; Qiao et al., 2024). 선행연구(Yeom et al., 2023)에서도 마찬가지 이유로 랜덤포레스트 대비 압축파쇄대 발생심도 검출성능이 개선되었다.
순환신경망(recurrent neural network, RNN)은 시계열자료 처리에 특화된 알고리즘으로, 다른 인공신경망과 구분되는 특징이 존재한다. 기존 인공신경망은 입력층에서 은닉층을 거쳐 출력층 방향으로 즉, 한 방향으로만 계산된 값이 전달되는 feed-forward 방식을 따른다. 이에 반해, RNN은 시계열정보가 순차적으로 반복하여 연산되는 특징이 있다(Elman, 1990). 그에 따라, RNN은 과거의 정보가 미래에 영향을 미치는 시계열자료에 주로 활용된다. 하지만, 길이가 긴 시계열자료의 경우에는 기울기소실(gradient vanishing) 문제가 발생하며, 이전 시점의 정보를 현재 시점까지 전달하기 어렵다는 한계점이 존재한다(Hochreiter, 1998; Alom et al., 2019).
이러한 RNN의 문제점을 보완하기 위해 Fig. 4의 cell 구조를 가지는 LSTM이 제안되었다(Hochreiter and Schmidhuber, 1997). LSTM은 장기상태(long-term state)를 통해 초기 시점 정보를 기억하고, 후기 시점까지 전달함으로써 기울기소실 및 장기기억 의존성(long-term dependencies) 문제를 해결하였다(Ki et al., 2019; Lee et al., 2019; Kim et al., 2024).
Fig. 4에 제시된 계산과정을 구체적으로 살펴보면, 시점에서의 장기상태()는 식 (2)와 (3)으로 표현되는 2개의 게이트(forget gate(), input gate())를 거치며 시점 이전의 정보와 시점의 정보에 대한 반영여부를 결정한다. Forget gate는 이전 시점으로부터 전달된 장기상태()에서 불필요한 정보를 잊고, input gate는 시점에서 입력된 정보 중 장기상태에 추가할 정보를 정한다. 입력된 시점의 정보 중, 장기상태에 전달할 후보(cell candidate, )를 생성하는 과정은 식 (4)를 통해 이루어지며, 다음 cell로 전달되는 장기상태는 식 (5)로 정의된다.
여기서, 𝜎는 시그모이드(sigmoid) 함수를, ⊙는 요소별 곱(element-wise multiplication)을 의미한다. , 은 각각 시점의 입력자료()와 이전 시점 단기상태()에 연결된 가중치행렬이며, 는 편향(bias)벡터를 나타낸다. 시점의 입력자료 차원을 , 단기상태의 차원을 라 하였을 때, , , 는 각각 (), (), ()의 크기를 갖는다.
식 (6)의 output gate는 다음 cell의 단기상태(short-term state, )로 전달할 정보를 조절하는 역할을 한다. 최종적으로 단기상태는 식 (7)과 같이 output gate의 출력과 tanh 함수를 취한 장기상태의 요소별 곱으로 결정된다.
모델 평가지표
A2공 자료는 전체 자료 중 압축파쇄대가 확인된 심도가 매우 적은 불균형자료이다. 정확도(accuracy)는 전체 자료에 대해 분류모델이 올바르게 분류한 자료의 비율로, 라벨자료가 편향된 불균형자료에서는 적합하지 않은 평가지표이다. 이러한 점을 고려하여 선행연구(Yeom et al., 2023)에서는 혼동행렬을 활용하여 학습된 모델의 성능을 평가하였다.
혼동행렬은 분류모델의 결과를 평가하는 데 사용되는 표로, 이를 통해 모델의 성능을 다양한 관점에서 분석할 수 있다(Fig. 5). 본 연구에서 개발하고자 하는 모델은 압축파쇄대 발생여부를 판단하는 이진 분류모델임에 따라, 혼동행렬은 TP(true positive), FP(false positive), FN(false negative), TN(true negative) 총 4개 항목으로 구성된다.
선행연구(Yeom et al., 2023)에서는 압축파쇄대가 발생한 경우를 positive, 발생하지 않은 경우를 negative로 정의하고, 실제값과 모델 분석값의 일치여부에 따라 true와 false로 구분하였다. 즉, FP와 FN은 모델이 잘못 분류한 경우에 해당한다. A2공은 압축파쇄대가 아닌 심도가 대부분이므로, FP는 압축파쇄대로 판정된 소수의 자료(TP+FP)만을 전문가가 검토하여 참과 거짓 규명이 용이하다. 반면, FN에 해당하는 결과를 전문가가 확인하기 위해서는 압축파쇄대가 발생하지 않은 것으로 분석된 대부분의 심도(FN+TN)에 대해 검토가 이루어져야 하므로 딥러닝모델을 활용하는 의미가 퇴색된다. 따라서 본 연구에서는 전문가 검토 효율성을 높이기 위한 연구목적에 따라 선행연구(Yeom et al., 2023)와 동일하게 FN의 개수를 줄이는 것을 핵심 평가지표로 설정하였다. FN과 더불어, 혼동행렬을 이용한 평가지표(Fig. 5)인 정밀도(precision)와 재현율(recall)을 활용하였으며, 특히 FN에 가중치를 둔 재현율을 중점으로 압축파쇄대 검출모델 간 성능을 비교하였다.
연구결과
전처리된 99,090개 자료를 바탕으로 XGBoost와 LSTM 모델을 개발하였다. 두 알고리즘이 요구하는 입력자료의 형태가 다르므로, 모델개발 과정은 Fig. 3의 우측 영역에 도시한 바와 같이 머신러닝과 딥러닝 알고리즘으로 나누어 진행하였다. 각 알고리즘에 적합한 입력자료를 별도로 구성하고, 이에 맞는 출력자료를 선정하여 모델학습을 수행하였다. 이후, 학습된 모델을 테스트자료에 적용하고 혼동행렬을 통해 두 알고리즘의 성능을 비교분석하였다.
LSTM 모델개발
시추공 영상검층자료는 심도에 따른 순서를 가지며, 연속한 심도의 진폭은 서로 관련성이 있다. 이는 특정 심도에서의 압축파쇄대 발생여부를 판단함에 있어, 인근 심도의 자료가 고려될 수 있음을 의미한다. 따라서, 본 연구에서는 여러 개의 연속된 심도자료를 하나의 시계열자료로 구성한 후, 이를 LSTM 모델의 입력자료로 활용하였다.
몇 개의 연속된 심도를 활용할지 결정하기 위해 A2공에서 확인된 압축파쇄대의 길이 분포를 확인하였다(Fig. 6). 전문가에 의해 검출된 압축파쇄대들의 길이는 0.03–1.48 m의 범위를 가지며, 평균 길이는 약 0.35 m이다. 본 연구에서는 각 압축파쇄대를 하나의 시계열 입력자료에 적절히 포함시키기 위해, 압축파쇄대 최소 길이(0.03 m)의 약 2배인 0.07 m의 연속된 심도를 활용하였다. 즉, 중앙심도의 압축파쇄대 발생여부를 파악하기 위해 중앙심도를 포함한 7개 심도자료(중앙심도와 상‧하부 3개 심도의 진폭)를 사용하게 된다. 이때, 각 심도자료는 144개 방위의 진폭으로 구성되므로 LSTM 모델의 입력자료는 (1, 7, 144) 크기를 가지며, 이 중 중앙심도의 압축파쇄대 발생여부를 출력자료(1, 1)로 사용하였다.
Fig. 7은 A2공 994.98–995.12 m 심도자료에서의 시계열자료 구성 예이다. 첫 번째 시계열 입력자료는 994.98–995.04 m의 연속된 7개 심도에 대한 144개 방위의 진폭(Fig. 7, 파란색 점선 박스)으로 구성되며, 해당 7개 심도의 중앙심도인 995.01 m의 압축파쇄대 발생여부(Fig. 7, 붉은색 점선 박스)가 출력자료로 구성된다. 이 과정은 아홉 번째 입‧출력 자료(Fig. 7, 검은색 실선 박스)가 구성될 때까지 반복된다.
Fig. 7에서 확인할 수 있듯이, 녹색 실선 박스로 표시된 최상단과 최하단 3개 심도의 압축파쇄대 발생여부는 출력자료로 구성되지 않는다. 이는 해당 6개 심도의 압축파쇄대 여부를 판단하기 위한 시계열 입력자료를 구성할 수 없기 때문이다. 그에 따라 전체 99,090개 자료에서 6개 자료가 줄어들어, 최종 구성된 입‧출력 자료는 각각 (99,084, 7, 144), (99,084, 1)의 배열을 가진다. 해당 입력자료는 LSTM에서 요구되는 3차원 배열형태(size, time-step, feature)를 만족하며, 모델은 연속된 7개 심도의 진폭을 바탕으로 중앙심도의 압축파쇄대 발생여부를 판단한다.
구성된 99,084개 입‧출력 자료 중, 80%인 79,267개 자료를 학습자료로, 20%인 19,817개 자료를 테스트자료로 분리한 후, LSTM 모델을 학습하였다. 본 연구에서 사용한 LSTM 모델의 구조 및 학습 관련 옵션은 Table 2와 같다. 시계열자료의 특징을 양방향으로 추출하는 Bi-LSTM(bi-directional LSTM)(Schuster and Paliwal, 1997)을 2개 층으로 구성하였고, 노드 수는 입력자료의 feature 개수인 144개로 설정하였다. 따라서, 입력층 후에 2개의 Bi-LSTM 은닉층이 구성되며 출력층으로 이어진다.
Table 2.
모델 학습옵션 중 하나인 validation split을 통해 학습자료의 20%를 검증자료로 분리하였으며, 해당 검증자료에 대한 이진 교차엔트로피(binary cross-entropy)가 최소화되는 방향으로 학습을 진행하였다. 최적화 알고리즘으로는 Adam(adaptive moment estimation)을 사용하였고, 학습률(learning rate)은 0.001이다. 최대 에포크(epoch) 수는 1,000으로 설정하였으며, 과적합을 방지하기 위해 early stopping을 적용하되, 드롭아웃(dropout)은 적용하지 않았다. 출력층의 활성화함수(activation function)로는 시그모이드 함수를 사용하였으며, 활성화함수에 의해 변환된 0과 1 사이의 출력값은 0.5를 기준으로 0과 1로 구분되었다. LSTM 모델 학습은 2.7 GHz의 28 코어 CPU, 256 GB 메모리, NVIDIA GeForce RTX 3090 그래픽카드를 갖춘 컴퓨터 환경에서 수행되었다. 학습에는 약 2분 2초가 소요되었으며, 학습(검증자료 포함) 및 테스트 자료에 대한 정확도는 각각 0.9998, 0.9990으로 확인되었다.
XGBoost 모델개발
XGBoost는 입력자료로 2차원 배열을 필요로 한다. A2공 특정 1개 심도에 대한 144개 방위의 진폭을 하나의 입력자료(1, 144)로 구성하였으며, 해당 심도의 압축파쇄대 발생여부를 출력자료(1, 1)로 활용하였다. 구성된 입‧출력 자료의 배열형태는 각각 (99,090, 144), (99,090, 1)로, XGBoost 모델은 특정 1개 심도의 진폭에 대해 압축파쇄대 발생여부를 판단한다.
XGBoost 모델은 단일 심도의 진폭을 입력자료로 사용함에 따라, 전 심도에 대해 압축파쇄대 발생여부 판단이 가능하다. 하지만, LSTM 모델은 연속된 7개 심도의 진폭을 입력자료로 받아 중앙심도의 압축파쇄대 발생여부를 판단하므로, 상‧하부 3개 심도에 대한 분석이 불가능하다(Fig. 7). 본 연구에서는 동일 심도에 대한 두 모델의 검출성능을 비교하기 위해, XGBoost 모델의 학습(79,267, 1) 및 테스트(19,817, 1) 출력자료를 LSTM 모델과 동일하게 구성하였다. 또한 각 출력자료와 동일한 1개 심도의 진폭을 입력자료(학습: (79,267, 144), 테스트: (19,817, 144))로 사용하였다.
특정 심도에서의 압축파쇄대 발생여부를 판단하는 분류문제이므로 XGBoost 패키지의XGBoostClassifier를 활용하여 모델을 개발하였다. 선행연구(Yeom et al., 2023)와 동일하게 의사결정나무의 수를 기본값인 10개보다 큰 1,000개로 설정하였으며, 그 외 학습률 및 과적합 방지를 위한 정규화 매개변수 등의 하이퍼파라미터도 기본값(XGBoost, 2024)을 사용하였다. 학습시간 단축을 위해 모든 56개의 논리 프로세서를 병렬연산에 활용하였다. 학습에는 약 8초가 소요되었으며, 학습 및 테스트 자료에 대한 정확도는 각각 1, 0.9940으로 평가되었다.
모델평가
Fig. 8은 학습 및 테스트 자료에 대한 XGBoost 모델의 결과를 도시한 혼동행렬이다. 학습자료에 대한 FP와 FN은 모두 0개로 과적합된 결과를 보인다(Fig. 8a). 테스트자료에 대한 FP와 FN은 각각 24개, 95개로 본 연구의 핵심 평가지표인 FN의 개수가 FP보다 비교적 크게 나타났다(Fig. 8b). 이에 따라, 재현율(0.75)이 정밀도(0.92)에 비해 현저히 낮게 평가되었으며(Table 3), 이는 XGBoost 모델이 전문가 분석 효율성 향상을 위한 목적에 적합하지 않음을 의미한다.
학습 및 테스트 자료에 대한 LSTM 모델의 결과는 Fig. 9와 같이 나타났다. 학습자료에서 FP가 5개, FN은 12개로 XGBoost 모델 대비 소폭 증가하였다(Fig. 9a). 하지만, 테스트자료에 대한 FN은 95개에서 11개로 줄어들어, 압축파쇄대가 발생한 심도에 대해 월등히 낮은 검출오차를 보였다. FP 또한 24개에서 8개로 줄어들었다(Fig. 9b). 정밀도는 0.98, 재현율은 0.97로 XGBoost 모델 대비 두 지표 모두 개선되었으며, 특히 재현율은 약 29%의 증가율을 보였다(Table 3). LSTM 모델은 추가 고려한 상‧하부 3개 심도자료간의 상관성을 반영하여 압축파쇄대를 검출함으로써, 단일 심도자료만을 활용하는 XGBoost 모델에 비해 더 개선된 성능을 보이는 것으로 판단하였다.
Fig. 10은 A2공 전체 입력자료(99,084개)에 대한 학습된 두 모델의 압축파쇄대 깊이 분석결과이다. 파란색 점은 실제 압축파쇄대가 발생한 심도를 나타내며, 붉은색과 주황색 점은 각각 XGBoost와 LSTM 모델이 압축파쇄대로 판단한 심도를 의미한다. XGBoost 모델은 비교적 큰 FN을 보임에 따라(Fig. 8b), 998.2–994.4 m 심도(Fig. 10, 검은색 점선)에서 실제 압축파쇄대가 발생한 구간을 불연속적으로 분석하는 경향이 확인되었다. 반면, LSTM 모델의 경우 검출된 압축파쇄대 심도가 연속적이며, 실제 압축파쇄대가 발생한 심도와 높은 일치도를 보였다.
압축파쇄대가 발생하지 않은 심도에 대해서도 두 모델간 성능차이를 확인할 수 있다. 실제 압축파쇄대가 존재하지 않는 680–780 m 구간(Fig. 10, 검은색 실선 박스)에 대해 LSTM 모델은 압축파쇄대가 존재하지 않는 것으로 판단한 반면, XGBoost 모델은 일부 심도를 압축파쇄대로 잘못 분석한 결과를 보인다(Fig. 10). 이는 XGBoost 모델의 FP가 비교적 크게 나타나는 Fig. 8b의 결과와 일치한다.
Fig. 11은 Fig. 10에서 녹색 실선으로 표기된 709.4–710.8 m 구간을 확대하여 시각화한 것이다. 해당 구간에 포함된 균열에 대해 XGBoost 모델은 압축파쇄대로 잘못 분석하는 경향을 보인 반면, LSTM 모델은 압축파쇄대가 존재하지 않는 것으로 판단하였다. 이러한 결과는 LSTM 모델이 단층 및 균열과 같은 취성구조가 혼재하는 구간에서도 압축파쇄대 발생심도를 높은 신뢰도로 검출할 수 있음을 시사한다.
7개 심도자료를 활용한 XGBoost 모델 비교검증
지금까지 선행연구(Yeom et al., 2023)에서 제안된 XGBoost 모델과 본 연구에서 제안한 LSTM 모델을 정량적으로 비교하였다. 하지만 두 모델은 입력자료가 다르므로, 알고리즘 차이에 대한 영향을 파악하기 위해 LSTM 모델과 동일한 입력자료를 사용하는 XGBoost 모델을 추가 개발하여 성능을 비교하였다. 해당 XGBoost 모델은 LSTM 모델처럼 7개의 연속된 심도자료를 입력받아 중앙심도의 압축파쇄대 발생여부를 판단한다. XGBoost는 입력자료로 2차원 배열이 요구되므로, LSTM 모델의 3차원 입력자료(99,084, 7, 144)를 2차원 배열(99,084, 7 × 144)로 변환하는 과정을 수행하였다. 하이퍼파라미터는 앞선 XGBoost 모델과 동일하게 설정하여 학습한 결과, 모델학습에 약 1분 30초가 소요되었으며, 학습 및 테스트 자료에 대한 정확도는 각각 1, 0.9955로 나타났다.
Fig. 12는 추가 개발된 XGBoost 모델을 통해 학습 및 테스트 자료를 분석한 결과이다. 학습자료에서는 기존 XGBoost 모델(Fig. 8a)과 마찬가지로 FP와 FN이 모두 0으로 나타났다(Fig. 12a). 테스트 자료에 대한 FP는 5개로, 기존 XGBoost 모델(24개)에 비해 크게 개선되어 LSTM 모델(8개)보다도 적은 수치를 보였다(Fig. 12b). 하지만, FN은 84개로 기존 XGBoost 모델(95개)과 비교하여 유의미한 개선을 보이지 않았고, 여전히 LSTM 모델(11개)과는 상당한 차이가 존재하였다. 그 결과, 테스트자료에 대한 재현율은 0.78로 LSTM 모델(0.98)보다 낮았다. 이러한 결과는 LSTM 모델이 시계열자료 처리에 강점을 가짐에 따라, 연속된 7개 심도자료의 패턴을 효과적으로 학습하여 압축파쇄대 발생여부를 더 신뢰도 있게 판단할 수 있음을 의미한다.
연구결론
시추공벽의 파쇄대 관찰을 통해 현장응력을 규명하는 방법은 모든 심도에 대해 압축파쇄대를 판단하는 작업에 많은 시간이 요구되며, 연구자의 주관이 개입되는 문제가 있다. 기존 검출방법의 한계를 보완하기 위해 Yeom et al. (2023)은 머신러닝 알고리즘인 XGBoost를 이용하여 이미지로그의 압축파쇄대 심도를 자동검출하는 모델을 개발하였으나, 전문가의 분석 효율성을 향상시키는 데 한계가 존재하였다.
이를 개선하고자, 본 연구에서는 딥러닝 알고리즘인 LSTM을 통해 연속된 심도자료 간의 관계를 효과적으로 고려함으로써, 압축파쇄대 발생여부를 보다 신뢰도 있게 분석할 수 있는 모델을 제안하였다. 연구의 전체적인 순서는 Fig. 3에 제시된 흐름도를 따라 진행되었으며, 개발된 LSTM 모델의 압축파쇄대 검출성능은 단일 심도기반의 XGBoost 모델과 비교하여 평가되었다.
테스트자료에 대한 XGBoost와 LSTM 모델의 FN 개수는 각각 95개, 11개로, LSTM 모델이 압축파쇄대가 발생한 심도를 더 높은 신뢰도로 검출하여 재현율이 약 29% 향상되었다(XGBoost: 0.75, LSTM: 0.97). 또한, FP 측면에서도 LSTM 모델이 더 우수한 성능을 보였으며(XGBoost: 24개, LSTM: 5개), 복잡한 취성구조가 혼재된 구간에서 압축파쇄대 발생심도를 정밀하게 분석하였다. 이러한 결과는 LSTM 모델이 시계열자료의 특성을 효과적으로 반영하고, 연속된 심도자료의 경향을 학습함으로써 검출성능을 향상시킬 수 있음을 시사한다. 반면, 동일한 7개의 연속된 심도자료를 사용한 XGBoost 모델은 FN(84개)과 재현율(0.78) 측면에서 LSTM 모델에 미치지 못했으며, 이는 LSTM의 시계열자료 처리능력에 대한 우수성을 입증하는 결과라 할 수 있다.
이를 바탕으로, 본 연구에서 제안한 LSTM 모델은 시추공 응력지시자 분석의 자동화 수준을 높여 전문가의 분석 효율성을 향상시킬 수 있을 것으로 사료된다. 해당 모델은 타 지역의 시추공자료에도 적용가능할 것으로 기대되며, 전이학습(transfer learning)을 통해 다양한 지질환경에서의 응력규명 작업에 활용될 수 있다.
본 연구에서 개발된 LSTM 모델은 압축파쇄대 발생심도만을 제한적으로 제공하는 한계가 있다. 따라서 YOLO(you only look once)와 같은 객체탐지 알고리즘을 활용하여 압축파쇄대의 길이, 폭 등 추가적인 속성정보를 도출하는 방향으로 연구를 확장할 필요가 있으며, 이를 통해 지하공간개발 및 응력해석분야에서 모델의 활용성을 더욱 높일 수 있을 것으로 기대된다.