KIEAE Journal
[ Research Article ]
The International Journal of The Korea Institute of Ecological Architecture and Environment - Vol. 26, No. 2, pp.77-85
ISSN: 2288-968X (Print) 2288-9698 (Online)
Print publication date 30 Apr 2026
Received 09 Mar 2026 Revised 24 Mar 2026 Accepted 27 Mar 2026
DOI: https://doi.org/10.12813/kieae.2026.26.2.077

LSTM 기반 업무용 건물 냉방부하 예측 모델의 단계적 성능 최적화 방법

성남철* ; 김대웅**
A Stepwise Performance Optimization Method for LSTM-Based Cooling Load Prediction Models in Office Buildings
Namchul Seong* ; Daeung Kim**
*Main author, Researcher, CJU Industry-Academic Cooperation Foundation, Cheongju Univ., South Korea inamchul@cju.ac.kr
**Corresponding author, Professor, Dept.of Architectural Engineering, Cheongju Univ., South Korea dkim@cju.ac.kr


ⓒ 2026. KIEAE all rights reserved.

Abstract

Purpose:

Although Long Short-Term Memory (LSTM) models have been widely used for predicting time-series data in building energy applications, studies focusing on cooling load prediction for office buildings remain limited. In particular, the influence of model configuration and data preprocessing strategies on prediction performance has not been systematically investigated. This study aims to evaluate the impact of stepwise model improvement techniques on the prediction accuracy of LSTM-based cooling load forecasting models.

Method:

Weather data from the Korea Meteorological Administration for 2023~2025 were collected and converted into EPW format. Cooling load data were generated using EnergyPlus for a medium office reference building. An LSTM-based prediction model was developed, and six cases were constructed by sequentially introducing lagged input variables, data normalization, low-load data filtering, and hyperparameter tuning. Prediction performance was evaluated using the coefficient of determination (R2), coefficient of variation of the root mean square error (CvRMSE), and mean bias error (MBE).

Result:

Prediction performance improved significantly as the model improvement steps were applied. The initial model showed low accuracy with an R2 of 0.3955 and a CvRMSE of 139.7%. After stepwise improvements, the final model achieved an R2 of 0.9318 and a CvRMSE of 11.5%, with an MBE of -2.7%. The final model satisfied the ASHRAE Guideline 14 criteria for hourly prediction models, demonstrating the effectiveness of the proposed stepwise model improvement strategy.

Keywords:

Cooling Load Prediction, Long Short-Term Memory (LSTM), Office Building, Prediction Performance

키워드:

냉방부하 예측, 장단기 기억 신경망(LSTM), 업무용 건물, 예측 성능

1. 서론

건물 부문은 전 세계 에너지 소비와 온실가스 배출에서 중요한 비중을 차지하며, 에너지 절감과 탄소 배출 저감을 위한 핵심 관리 대상이다. 국제에너지기구(International Energy Agency, IEA)에 따르면 건물 운영에서 소비되는 에너지는 전 세계 최종 에너지 소비의 약 30%를 차지하며, 에너지 관련 온실가스 배출의 약 26%를 차지하는 것으로 보고되고 있다[1]. 또한 도시화 확대와 기후 변화에 따른 냉방 수요 증가로 인해 건물 에너지 소비는 향후 지속적으로 증가할 것으로 전망되고 있으며, 특히 냉방 에너지는 건물 전력 수요 증가의 주요 요인 중 하나로 지적되고 있다[2]. 이러한 배경에서 건물 에너지 소비를 효율적으로 관리하기 위한 예측 기반 에너지 관리 기술의 중요성이 점차 강조되고 있다.

건물 에너지 수요를 정확하게 예측하는 것은 건물 에너지 관리 시스템(Building Energy Management System, BEMS)의 핵심 중 하나로, 공조 시스템의 효율적인 운전, 피크 부하 관리 및 에너지 절감 전략 수립에 중요한 역할을 한다[3]. 특히 냉방부하 예측은 HVAC 시스템의 운전 전략 수립과 건물 에너지 관리에 있어 중요한 요소로 인식되고 있다.

건물 에너지 예측을 위해 다양한 데이터 기반 접근 방법이 활용되고 있으며, 특히 기계학습(machine learning) 및 딥러닝(deep learning) 기반 예측 모델이 활발히 연구되고 있다. 기존 연구에서는 인공신경망(Artificial Neural Network, ANN), 서포트 벡터 회귀(Support Vector Regression, SVR), 랜덤 포레스트(Random Forest) 등 다양한 기계학습 모델이 건물 에너지 소비 예측에 활용되어 왔다[4]. 최근에는 순환 신경망(Recurrent Neural Network, RNN)의 확장 구조인 Long Short-Term Memory (LSTM) 모델이 건물 에너지 예측 분야에서 널리 활용되고 있다. LSTM 모델은 장기적인 시계열 의존성을 효과적으로 학습할 수 있어 에너지 소비 패턴과 같은 시간 의존적 데이터 분석에 적합한 것으로 보고되고 있다[5]. 실제로 여러 연구에서는 LSTM 기반 모델이 건물 에너지 소비 예측에서 기존의 통계 기반 모델이나 다른 기계학습 모델에 비해 우수한 예측 성능을 보이는 것으로 보고하였다[6,7].

그러나 기존 LSTM 기반 모델 연구의 대부분은 특정 모델 구조의 적용 또는 예측 정확도 향상에 초점을 두고 있으며, 입력 변수 구성, 데이터 전처리 방법 및 모델 학습 전략이 예측성능에 미치는 영향을 체계적으로 분석한 연구는 제한적인 것으로 나타났다. 특히 건물 에너지 데이터는 기상 조건, 시간적 패턴 및 건물 운영 특성 등 다양한 요인의 영향을 받기 때문에 데이터 구성 방식과 모델 설정에 따라 예측 성능이 크게 달라질 수 있음에도 불구하고, 이러한 요소들을 단계적으로 분리하여 분석한 연구는 부족한 실정이다[8].

또한 기존 연구에서는 냉방부하와 같이 HVAC 시스템 운전과 직접적으로 연계되는 물리적 변수에 대한 예측보다는 건물 전체 에너지 소비 또는 전력 사용량 예측에 초점을 맞추는 경향이 있으며, 냉방부하 예측 모델의 구성 요소와 데이터 처리 전략을 통합적으로 고려한 접근은 상대적으로 미진한 것으로 나타났다[9].

따라서 본 연구에서는 단순히 LSTM 모델을 적용하는 기존 접근과 달리, 예측 모델의 성능을 결정하는 주요 요소를 단계적으로 분리하고 이를 체계적으로 통합하는 방법론적 접근(stepwise model improvement strategy)을 제안하고자 한다. 이를 위해 기상청 종관기상관측자료를 활용하여 기상 데이터를 구축하고 EnergyPlus 시뮬레이션을 통해 생성된 업무용 건물의 냉방부하 데이터를 이용하여 학습데이터를 구성하였다. 이후 지연 입력 변수(lagged input), 데이터 정규화, 저부하 데이터 필터링 및 하이퍼파라미터 튜닝을 단계적으로 적용한 총 6개의 LSTM 기반 예측 모델을 구축하고 각 단계에서의 예측 성능 변화를 비교 분석하였다.

본 연구는 기존 연구와 달리 LSTM 모델의 단순 적용이 아닌, 데이터 처리 및 모델 구성 요소를 단계적으로 적용하고 각 요소가 예측성능에 미치는 영향을 정량적으로 분석함으로써, 냉방부하 예측 모델의 성능 향상 메커니즘을 체계적으로 해석하고자 한다. 이를 통해 건물 냉방부하 예측 모델의 구성 방법론을 제시하고, 향후 예측 기반 공조 시스템 운전 및 건물 에너지 관리 전략에 활용 가능한 실질적인 설계 지침을 제공하는 것을 목적으로 한다.


2. 학습데이터 생성과 LSTM 예측 초기모델 개발

2.1. 기상 데이터를 이용한 학습데이터 생성

본 연구에서는 업무용 건물의 냉방부하 예측을 위한 입력 변수 가운데 주로 기상 데이터를 활용하였다. 기상자료는 기상청 종관기상관측(ASOS, Automated Synoptic Observing System) 데이터를 제공하는 기상청 기후자료개방포털[10]에서 수집하였다. 연구에 사용된 기상데이터는 2023년부터 2025년까지의 3년간 시간 단위 관측자료를 사용하였다. 수집된 기상자료에는 외기 건구온도, 상대습도, 일사량 등 건물 냉방부하에 영향을 미치는 주요 기상변수가 포함된다. 이러한 기상요소는 건물의 냉방부하 발생과 밀접한 관계가 있으며, 냉방부하 예측 모델의 입력 변수로 널리 활용된다.

또한 기상 데이터를 건물의 냉방부하 생성에 활용하기 위해 EnergyPlus에서 사용하는 *.epw (EnergyPlus Weather) 형식으로 변환하였다. *.epw 형식은 시간 단위 기상 데이터를 표준화된 구조로 제공하며, 건물 에너지 시뮬레이션 및 데이터 기반 모델 구축에 활용할 수 있다. 변환된 *.epw 파일을 기반으로 시간 단위 기상 데이터를 추출하였으며, 외기온도, 습도, 일사량 및 시간 정보를 정리하여 냉방부하 예측 모델의 학습데이터셋으로 구성하였다. 생성된 데이터는 이후 LSTM 기반 냉방부하 예측 모델의 입력 변수로 사용되었다.

2.2. 대상 건물 및 냉방부하 데이터

본 연구에서는 업무용 건물의 냉방부하 예측 모델 학습을 위해 EnergyPlus 기반 시뮬레이션을 통해 생성된 냉방부하 데이터를 활용하였다. 대상 건물은 미국 에너지부(Department of Energy)에서 제시한 Medium Office Reference Building 모델을 기반으로 구성하였다. 해당 건물 모델은 Fig. 1.과 같이 각층에 5개의 존, 전체 3개층으로 총 15개의 존(Zone)으로 구성되어 있으며, 각 존에서 발생하는 현열 냉방부하를 산출하였다.

Fig. 1.

Modeling of medium office building

대상건물을 통해 냉방부하 산출과 생성 시에 국내의 실정에 맞도록 건물의 외피 성능은 국내 「건물에너지절약설계기준」에서 제시하는 서울 지역(중부 2지역)의 기준 열관류율을 적용하였다[11]. 기존 Reference Building의 외피 구성에 단열 성능을 보완하여 외벽, 바닥 및 지붕의 열관류율이 해당 기준 이하가 되도록 모델링하였다.건물 운전시간과 재실 스케줄은 「건축물 에너지효율등급 인증제도」의 대규모 사무실(30m2 초과) 용도 프로필을 참고하여 설정하였으며[12] 냉난방 설비 및 조명기기의 운전시간은 건물 사용 시간과 동일하게 9시부터 18시까지로 설정하였다. 냉방부하 계산에 필요한 건물 내부의 열발원 중 재실 밀도와 기기 발열, 조명밀도는 DOE Commercial Reference Building Models[13]와 ASHRAE 90.1[14]의 내부 발열 기준을 참고로하여 설정하였다. 학습데이터 생성을 위한 시뮬레이션의 주요 조건들을 정리하면 Table 1.과 같다.

Simulation condition of the reference building (medium office building)

본 연구에서는 2023년부터 2025년까지의 기상데이터를 적용하여 EnergyPlus 시뮬레이션을 수행하였으며, 시간 단위 냉방부하 데이터를 산출하였다. 이를 통해 생성된 3년치의 시간 단위 냉방부하 데이터를 LSTM 예측 모델의 학습 데이터로 활용하였다. 최종적으로 생성된 냉방부하 데이터는 15개 존의 현열 냉방부하 합계로 정의하였다. 이와 같이 생성된 냉방부하 데이터와 기상 데이터를 결합하여 냉방부하 예측을 위한 학습 데이터셋을 구축하였다. 최종적으로 생성된 데이터는 26,280세트이다.

2.3. LSTM 기반 냉방부하 예측 초기모델

본 연구에서는 외기 조건 및 시간에 따라 변화하는 시계열 특성을 갖는 업무용 건물의 시간 단위 냉방부하 예측을 위해 Long Short-Term Memory (LSTM) 기반 신경망 모델을 적용하여 예측 모델을 구축하였다. LSTM (Long Short-Term Memory)은 순환 신경망(Recurrent Neural Network)의 한 종류로, 시계열 데이터의 장기 의존성을 효과적으로 학습하기 위해 제안된 모델이다[4]. LSTM은 RNN에서 발생하는 기울기 소실(vanishing gradient) 문제를 완화하기 위해 셀 상태(cell state)와 게이트 구조를 도입한 모델로 셀 상태와 세 가지 게이트(forget gate, input gate, output gate) 구조를 통해 과거 정보를 선택적으로 유지하거나 제거하면서 시계열 패턴을 학습한다.

Fig. 2.는 LSTM 셀의 기본 구조를 나타낸 것이다. 입력 벡터 𝑥(𝑡 )와 이전 은닉 상태 ℎ(𝑡−1)는 게이트 구조를 통해 처리되며, 이를 통해 셀 상태 𝑐(𝑡)가 업데이트된다. 이러한 구조는 시간에 따른 데이터의 장기 의존성을 효과적으로 학습할 수 있도록 한다.

Fig. 2.

Architecture of the Long Short-Term Memory (LSTM) cell used for time-series learning

초기 예측 모델은 기상 데이터와 시간 정보를 입력 변수로 사용하고 건물 냉방부하를 출력 변수로 설정한 기본 구조의 LSTM 모델로 구성하였다. 입력 변수로는 외기온도, 외기습도, 일사량 및 시간 정보를 사용하였으며, 출력 변수는 15개 존의 현열 냉방부하 합계로 정의하였다. 그밖에 본 연구에서 사용된 LSTM 모델의 주요 입력 파라미터와 훈련등에 필요한 주요 설정값을 요약해서 정리하면 Table 2.와 같다.

Model hyperparameters and training settings

본 연구의 초기모델에서는 연속 시계열의 시간 지연 입력 변수를 적용하지 않은 단일 시점 입력 구조를 사용하여 기본적인 예측성능을 확인하였다. 또한 입력 데이터 처리 과정에서 정규화 및 데이터 필터링과 같은 추가적인 처리 없이 원시 데이터를 그대로 학습에 활용하였다.

LSTM 모델의 학습은 MATLAB 환경에서 수행하였으며, 구축된 초기 모델은 이후 단계별 모델 개선을 위한 Baseline 모델로 활용하였다. 기상 데이터의 수집부터 변환, EnergyPlus를 이용한 냉방부하의 산출과 생성, 예측 모델을 위한 데이터셋의 구성 절차를 정리하면 Fig. 3.과 같다.

Fig. 3.

Process of generating cooling load training data


3. LSTM 모델의 예측성능 향상 방법 및 평가지표

3.1. 예측성능 향상 방법

LSTM 기반 냉방부하 예측 모델의 성능을 향상시키기 위해 본 연구에서는 데이터의 처리 과정과 모델 입력 구조 개선을 단계적으로 적용하였다. 건물 냉방부하는 기상 조건과 시간 변화에 따라 강한 시계열 특성을 가지며, 데이터 분포의 특성에 따라 모델 학습 성능이 크게 영향을 받을 수 있다. 따라서 본 연구에서는 지연 입력 변수(Lagged Input Variable) 적용, 데이터 정규화, 데이터 필터링 및 하이퍼파라미터 조정을 통해 예측 모델의 성능을 개선하였다.

1) 지연 입력 변수(Lagged Input Variable) 적용

먼저 시계열 데이터의 시간적 의존성을 반영하기 위해 지연 입력 변수를 적용하여 이전 시간 단계의 정보를 모델 입력에 포함하였다. 본 연구에서는 기본적인 지연 입력으로 현재 시점(𝑡)의 입력 변수에 직전 시점인 1시간 전 (𝑡−1)의 값을 입력 변수로 사용하였다.

지연 입력 변수는 시계열 데이터를 활용할 때 시차(Time-lag)를 고려한 입력 변수를 활용하는 방법으로, 과거 시점의 데이터를 현재 예측에 활용하여 건물 냉방부하와 같이 시간에 따라 연속적으로 변화하는 데이터를 LSTM 모델에서 예측하는 데 효과적인 방법으로 알려져 있다.

2) Z-score 정규화(Z-Score Normalization)

다음으로 입력 데이터의 분포 차이에 따른 학습 성능 저하를 방지하기 위해 Z-score 기반의 정규화(Z-score normalization)를 적용하였다[15]. 정규화는 데이터의 평균과 표준편차를 이용하여 데이터를 표준화하는 방법으로, 서로 다른 스케일을 가지는 입력 변수 간의 영향을 균형 있게 반영할 수 있도록 한다.

특히, LSTM 내부의 시그모이드(σ) 및 하이퍼볼릭 탄젠트(tanh) 활성화 함수는 입력값이 일정 범위를 벗어날 경우, 미분값이 0에 가까워져 역전파 과정에서 가중치 업데이트가 중단되는 기울기 소실(Gradient Vanishing) 문제를 야기할 수 있다. 따라서 모든 데이터를 평균 0, 표준편차 1의 분포로 정규화함으로써 입력 데이터가 활성화 함수의 기울기가 가장 큰 선형 구간에 위치하도록 유도하였다. 이를 통해 기울기 소실 문제를 완화하고 학습의 수렴 속도와 예측 정밀도를 동시에 향상시켰다. Z-score 정규화를 수식으로 표현하면 Eq. 1과 같다.

z=x-μs(Eq. 1) 
  • 여기서
  • x: 원본 입력 데이터(Raw Data)
  • μ: 해당 변수의 전체 평균(Mean)
  • s: 해당 변수의 표준편차(Standard Deviation)
  • z: 표준화된 데이터(Scaled Data)
3) 데이터 필터링(Data Filtering)

다음으로 데이터 필터링을 적용하였다. 건물 냉방부하 데이터에는 운전 초기 시점에 냉방부하가 거의 발생하지 않는 저부하 구간과 운전 정지로 인해 냉방부하가 발생하지 않는 무부하 구간이 포함될 수 있다. 이러한 데이터는 모델 학습 과정에서 불필요한 노이즈(Noise)로 작용할 수 있다[16]. 따라서 본 연구에서는 일정 기준 이하의 냉방부하 데이터를 제거하여 학습데이터의 품질을 향상시켰다.

3.2. 단계별 예측 모델 구축

본 연구에서는 LSTM 기반 냉방부하 예측 모델의 성능향상 과정을 체계적으로 분석하기 위하여 입력 데이터 구성, 데이터의 처리 및 학습 조건을 단계적으로 개선한 예측 모델을 구축하였다. 이를 위해 초기모델을 기준으로 입력 구조와 학습 조건을 점진적으로 변화시키며 총 6개의 예측 모델(Case 1~Case 6)을 구성하였다. 각 Case는 예측 모델의 성능 개선 요소가 예측성능에 미치는 영향을 분석하기 위한 목적으로 설계되었다. 각 Case의 설명은 다음과 같다.

1) Case 1: 초기모델

Case 1은 본 연구의 기준이 되는 초기 LSTM 예측 모델이다. 입력 변수는 외기 온도, 외기 습도, 일사량, 시간 요소로 구성하였으며 추가적인 데이터의 처리나 시계열 입력 확장은 적용하지 않았다. 즉, 시계열 상의 시간 지연을 고려한 지연 입력 변수, 데이터 정규화 및 데이터 필터링을 적용하지 않은 기본적인 LSTM 모델로 구성하였다. 이 모델은 이후 단계에서 적용되는 성능 개선 방법의 효과를 비교하기 위한 Baseline 모델로 활용하였다.

2) Case 2: 지연 입력 변수 적용 모델

Case 2는 초기모델에 지연 입력 변수를 추가한 모델이다. 지연 입력 변수를 적용하여 시계열 데이터의 시간적 의존성을 반영하였다. 건물 냉방부하는 현재 시점의 기상 조건뿐만 아니라 이전 시간 단계의 상태에 영향을 받는 특성이 있으므로, 이전 시점의 입력 데이터를 모델 입력에 포함하였다. 이를 통해 모델이 과거 상태 정보를 함께 학습할 수 있도록 하였으며, 시간적 의존성 반영이 예측성능에 미치는 영향을 분석하였다.

3) Case 3: 지연 입력 변수 및 정규화 적용 모델

Case 3은 Case 2의 입력 구조에 Z-score 정규화를 추가 적용한 모델이다. 입력 변수인, 온도, 습도, 부하, 일사량은 각기 다른 단위와 크기를 가지므로, 모델 학습 과정에서 특정 변수의 영향이 과도하게 반영될 수 있다. 이를 방지하기 위해 평균과 표준편차를 이용한 정규화 과정을 적용하였다. 이를 통해 입력 변수 간 스케일 차이를 완화하고 모델 학습 안정성을 향상시키고자 하였다.

4) Case 4: 지연 입력 변수 및 데이터 필터링 적용 모델

Case 4에서는 Case 2 모델을 기반으로 무부하 구간 데이터 필터링을 적용하였다. 앞 절에서 설명한 바와 같이 데이터의 노이즈를 제거하는 개념으로 냉방부하가 0.1kW 이하의 값을 필터링하였다. 이를 통해 저부하 데이터 제거가 냉방부하 예측정확도에 미치는 영향을 분석하였다.

5) Case 5: 시차 입력 변수 정규화 및 데이터 필터링 적용 모델

Case 5는 시차 입력 변수, 정규화, 데이터 필터링을 모두 적용한 통합 모델이다. 입력 구조 개선과 데이터 전처리를 통합적으로 적용한 모델이며, 본 연구에서 제안하는 성능 향상 전략의 기본 형태에 해당한다. 각 기법의 동시 적용이 예측정확도 향상에 미치는 효과를 확인하고자 하였다.

6) Case 6: 하이퍼파라미터 튜닝 적용 최종 모델

Case 6은 Case 5 모델을 기반으로 하이퍼파라미터 튜닝을 적용한 최종 예측 모델이다. 모델 학습의 안정성과 예측정확도 향상을 위해 학습률(learning rate)을 초기의 0.001에서 0.0005로 낮추고 학습 반복 횟수(epoch)는 50에서 100으로 증가하여 학습 조건을 조정하였다. 학습률을 낮추면 가중치 갱신 폭이 감소하여 학습 과정의 진동을 줄이고 보다 안정적인 수렴을 기대할 수 있으며, 학습 반복 횟수를 증가시키면 모델이 데이터 패턴을 더욱 충분히 학습할 수 있다. 따라서 Case 6은 데이터 전처리와 학습 조건 최적화를 모두 반영한 최종 예측 모델로 정의하였다.

본 연구에서는 상기 6개 Case를 대상으로 동일한 데이터 분할 조건에서 학습 및 예측을 수행하였으며, 예측 결과를 비교하여 각 단계별 개선 방법의 효과를 분석하였다. 이를 통해 업무용 건물 냉방부하 예측을 위한 LSTM 모델의 성능 향상 전략을 체계적으로 검토하였다. 본연구에서 비교 검토한 단계별 예측모델의 Case를 정리하면 Table 3.과 같다.

Configuration of stepwise LSTM prediction models

3.3. 모델의 예측성능 평가지표

본 연구에서는 LSTM 기반 냉방부하 예측 모델의 성능을 평가하기 위해 결정계수(R2), 평균제곱근 오차의 변동계수(CvRMSE), 평균 편향 오차(MBE)를 사용하였다. 이러한 지표들은 건물 에너지 모델 및 예측 모델의 성능 평가에서 널리 사용되는 지표이며, 모델의 설명력, 예측 정확도 및 편향성을 종합적으로 평가할 수 있다.

또한 예측 모델의 성능 기준을 평가하기 위해 ASHRAE Guideline 14에서 제시하는 통계적 성능 기준을 참고하였다[17]. 해당 기준에 따르면 시간 단위 예측 모델의 경우 CvRMSE는 30% 이하, MBE는 ±10% 이하일 때 모델의 예측성능이 허용 가능한 수준으로 평가된다.

1) 결정계수(R2)

결정계수(R2)는 모델이 실제 데이터의 변동성을 얼마나 잘 설명하는지를 나타내는 지표이다. 값의 범위는 0에서 1 사이이며, 값이 1에 가까울수록 모델의 예측성능이 우수함을 의미한다. 결정계수는 Eq. 2와 같이 정의된다.

R2=1-i=1nyi-y^i2i=1nyi-y-2(Eq. 2) 
  • 여기서,
  • n: 데이터의 총 개수
  • yi: 실제 데이터 값(실제 냉방부하)
  • y^i: 예측된 데이터 값(예측 냉방부하)
  • y-: 실제 데이터 평균 값
2) 변동계수 기반 평균제곱근 오차(CvRMSE)

CvRMSE는 평균제곱근 오차(RMSE)를 실제 데이터의 평균값으로 정규화한 지표로, 예측 오차의 상대적인 크기를 평가하는 데 사용된다. 값이 작을수록 예측정확도가 높은 것을 의미한다. CvRMSE는 Eq. 3과 같이 정의된다.

CvRMSE=1ni=1nyi-y^i2y-×100(Eq. 3) 
3) 평균 편향 오차(MBE)

MBE는 모델 예측값이 실제값에 대해 과대 또는 과소 예측되는 경향을 나타내는 지표이다. MBE 값이 양수일 경우 모델이 실제값보다 크게 예측하는 경향이 있으며, 음수일 경우 실제값보다 작게 예측하는 경향이 있음을 의미한다. MBE는 다음 Eq. 4와 같이 정의된다.

MBE=1ni=1nyi-yi^(Eq. 4) 

4. 예측성능 결과 및 분석

4.1. 결정계수(R2) 분석

Fig. 4.는 각 Case별 예측 모델의 실제 냉방부하와 예측 냉방부하 간의 산점도(scatter plot)를 나타낸 것이다. 총 5회의 반복 학습중 가장 성능이 좋은 경우의 상태를 그래프로 나타내었다. 산점도에서 붉은 실선은 실제값과 예측값이 일치하는 추세 관계를 나타낸다.

Fig. 4.

Scatter plots between actual and predicted cooling load for each LSTM prediction model (case 1-case 6)

Case 1의 경우 R2값은 0.3955로 나타났으며, 실제 냉방부하와 예측값 사이의 분산이 크게 나타나 모델의 설명력이 낮은 것을 확인할 수 있다. 이는 초기모델에서 지연 입력 변수 및 데이터 처리 과정이 적용되지 않아 적절한 학습이 이루어지지 않기 때문으로 판단된다. Case 2에서는 지연 입력 변수 를 적용함에 따라 R2값이 0.7687로 크게 향상되었다. 이는 이전 시간 단계의 정보를 모델 입력에 포함함으로써 냉방부하의 시간적 의존성을 반영할 수 있었기 때문으로 해석된다. Case 3에서는 데이터 정규화를 추가로 적용하여 R2값이 0.8671로 증가하였다. 정규화를 통해 입력 변수 간 스케일의 차이가 완화되면서 모델 학습 안정성이 향상된 것으로 판단된다. Case 1부터 3까지의 산점도 결과를 살펴보면, 냉방부하가 발생하지 않는 시점, 즉 실제 부하가 0인 경우에도 부하가 발생하는 것으로 예측하여, 예측정확도가 낮아지는 것을 확인하였다. Case 4에서는 저부하 데이터 필터링을 적용하여 R2값이 0.7041로 나타났다. 무부하 데이터가 제거되고 필터링 되면서 실제 부하가 0일 경우의 예측오류들이 제거되었으나, 입력데이터의 스케일은 적용되지 않아 1.5×105W 이상의 데이터에는 일정 크기 이하의 값으로만 예측되는 결과를 확인할 수 있다. Case 5에서는 지연 입력 변수, 데이터 정규화, 데이터 필터링을 모두 적용한 모델을 구축하였으며, R2값은 0.9215로 크게 향상되었다. 이는 입력 데이터 구조 개선과 데이터 처리 방법이 동시에 적용되면서 모델의 예측정확도가 크게 향상되었음을 의미한다. 마지막으로 Case 6에서는 하이퍼파라미터 튜닝을 적용한 최종 모델을 구성하였으며, R2값은 0.9318로 나타났다. Case 5에 비해 R2값이 향상되었으며, 이는 학습률 감소와 학습 반복 횟수 증가를 통해 모델 학습 안정성과 수렴 성능이 향상된 결과로 해석된다.

전체적으로 Case가 진행됨에 따라 산점도 데이터가 대각선(ideal line) 주변으로 점점 밀집되는 경향을 보이며, 이는 단계적인 모델 개선을 통해 냉방부하 예측성능이 지속적으로 향상되었음을 보여주는 결과이다.

4.2. CvRMSE 분석

Fig. 5.는 각 Case별 LSTM 예측 모델의 CvRMSE 변화를 나타낸 것이며, Table 4는 각 Case에 대한 5회 반복 학습을 통한 CvRMSE의 평균값, 최대값, 최소값 및 표준편차의 결과를 정리한 것이다.

Fig. 5.

Comparison of CvRMSE values for each LSTM prediction model (case 1-case 6)

CvRMSE statistics of LSTM prediction models for each case

Case 1의 경우 CvRMSE 평균값은 139.7%로 나타나 매우 큰 예측 오차를 보였다. 이는 초기 모델에서 시계열 정보와 데이터 처리 과정이 반영되지 않아 모델이 냉방부하 패턴을 충분히 학습하지 못한 결과로 판단된다. Case 2에서는 지연 입력 변수를 적용함에 따라 CvRMSE가 86.1%로 크게 감소하였다. 이는 이전 시간 단계의 정보를 입력 변수로 활용함으로써 냉방부하의 시간적 특성을 보다 효과적으로 반영할 수 있었기 때문으로 해석된다. Case 3에서는 데이터 정규화를 추가 적용하여 CvRMSE가 66.9%로 감소하였다. 정규화를 통해 입력 변수 간 데이터 분포의 차이가 완화되면서 모델 학습 과정에서 발생하는 불균형 문제가 감소한 것으로 판단된다. Case 4에서는 저부하 데이터 필터링을 적용한 결과 CvRMSE가 26.3%로 크게 감소하였다. 이는 냉방부하가 거의 발생하지 않는 구간의 데이터가 제거되면서 모델 학습 시 발생하는 불필요한 오차가 감소한 결과로 해석된다. Case 5는 지연 입력 변수, 데이터 정규화 및 데이터 필터링을 모두 적용한 모델로 CvRMSE는 12.2%로 크게 감소하였다. 이는 입력 데이터 구조 개선과 데이터 처리 방법이 동시에 적용되면서 예측 오차가 크게 감소하였음을 의미한다. 마지막으로 Case 6에서는 하이퍼파라미터 튜닝을 적용한 최종 모델로 CvRMSE는 11.5%로 가장 낮은 값을 나타냈다. 학습률 감소와 학습 반복 횟수 증가를 통해 모델 학습 안정성이 향상되면서 예측 오차가 추가적으로 감소한 것으로 판단된다.

ASHRAE Guideline 14에서 제시하는 시간 단위 모델 기준인 CvRMSE 30% 이하와 비교했을 때, Case 4 이후의 모델은 모두 해당 기준을 만족하는 것으로 나타났다. 이는 단계적인 모델 개선 과정을 통해 냉방부하 예측 모델의 실용적 적용 가능성이 확보되었음을 의미한다. 한편 Case가 진행됨에 따라 CvRMSE의 표준편차 또한 감소하는 경향을 보였다. Case 1에서는 표준편차가 1.5였으나 Case 6에서는 0.3으로 감소하여 예측 오차의 변동성이 줄어들고 모델 예측 결과의 안정성이 향상된 것을 확인할 수 있다.

전체적으로 Case 1에서 Case 6으로 진행됨에 따라 CvRMSE가 139.7%에서 11.5%로 CvRMSE 기준으로 예측 오차가 약 12배 감소하였다. 이는 본 연구에서 제안한 단계적 모델 개선 방법이 냉방부하 예측 오차를 효과적으로 감소시키는 데 기여했음을 보여준다.

4.3. MBE 분석

Fig. 6.은 각 Case별 LSTM 예측 모델의 평균 편향 오차(MBE) 분포를 나타낸 것이며, Table 5.는 각 Case에 대한 5회 반복 학습을 통한평균값, 최대값, 최소값 및 표준편차의 결과를 정리한 것이다.

Fig. 6.

Comparison of MBE distributions of the LSTM prediction model (case 1-case 6)

MBE statistics of LSTM prediction models for each case

Case 1의 경우 평균 MBE는 -15.6%로 나타났으며, 대부분의 데이터가 음의 방향으로 분포하여 모델이 실제 냉방부하보다 작게 예측하는 경향(underestimation)을 보였다. 또한 표준편차가 9.4로 크게 나타나 예측 편향의 변동성이 큰 것을 확인할 수 있다. Case 2에서는 지연 입력 변수를 적용함에 따라 평균 MBE가 -10.8%로 감소하였으며, 편향의 분포 범위 또한 크게 줄어드는 경향을 보였다. Case 3에서는 데이터 정규화를 적용한 결과 평균 MBE가 -7.3%로 나타났으며, 편향의 절대값이 감소하는 경향을 보였다. Case 4에서는 저부하 데이터 필터링을 적용함에 따라 평균 MBE가 -5.9%로 나타났으며, 편향 분포 범위 또한 감소하는 경향을 보였다. 이는 냉방부하가 거의 발생하지 않는 구간에서 나타나는 예측 오류가 제거되면서 모델의 예측 편향이 감소한 결과로 판단된다. Case 5에서는 지연 입력 변수, 데이터 정규화 및 데이터 필터링을 모두 적용한 모델을 구축하였으며 평균 MBE는 -3.4%로 크게 감소하였다. 또한 표준편차가 0.9로 감소하여 예측 편향의 변동성이 크게 줄어든 것을 확인할 수 있다. 마지막으로 Case 6에서는 하이퍼파라미터 튜닝을 적용한 최종 모델을 구성하였으며 평균 MBE는 -2.7%로 가장 낮은 값을 나타냈다. 이는 학습률 감소와 학습 반복 횟수 증가를 통해 모델 학습 안정성이 향상되면서 예측 편향이 추가적으로 감소한 결과로 해석된다.

MBE는 ASHRAE Guideline 14에서 제시하는 시간 단위 모델 기준이 ±10% 이내로, Case 3 이후의 모델은 모두 해당 기준을 만족하는 것으로 나타났다. 이는 단계적인 모델 개선 과정을 통해 예측 모델의 편향이 지속적으로 감소하였음을 보여주는 결과이다.

전체적으로 Case 1에서 Case 6으로 진행됨에 따라 평균 MBE는 -15.6%에서 -2.7%로 감소하였으며, 이는 본 연구에서 제안한 단계적 모델 개선 방법이 냉방부하 예측 편향을 효과적으로 감소시키는 데 기여했음을 의미한다.

4.4. 소결

본 장에서는 LSTM 기반 업무용 건물 냉방부하 예측 모델의 성능을 평가하기 위하여 결정계수(R2), CvRMSE 및 MBE를 이용하여 단계별 모델 개선 효과를 분석하였다. 분석 결과, 초기 모델인 Case 1에서는 R2값이 0.3955로 나타나 예측 성능이 낮았으며, CvRMSE 또한 139.7%로 매우 높은 오차를 보였다. 이는 지연 입력 변수와 데이터 전처리 과정이 적용되지 않은 상태에서 모델이 냉방부하의 시계열 특성을 충분히 학습하지 못한 결과로 판단된다.

지연 입력 변수 적용(Case 2)과 데이터 정규화(Case 3)를 통해 모델의 예측 성능이 점진적으로 향상되었으며, 특히 저부하 데이터 필터링을 적용한 Case 4에서는 CvRMSE가 26.3%로 크게 감소하여 예측 오차가 크게 개선되는 것을 확인하였다. 또한 지연 입력 변수, 데이터 정규화 및 데이터 필터링을 모두 적용한 Case 5에서는 R2 값이 0.9215로 향상되었고 CvRMSE는 12.2%로 감소하여 모델의 예측 정확도가 크게 향상되었다.

데이터의 입력과 구조를 변경한 것 외에 하이퍼파라미터 튜닝도 적용하게 되면(Case 6) R2값이 0.9318로 가장 높은 값을 나타냈으며, CvRMSE는 11.5%, MBE는 -2.7%로 나타나 예측 오차와 예측 편향이 모두 감소하였다. Case 4 이후의 모델에서는 CvRMSE와 MBE 값이 ASHRAE Guideline 14에서 제시하는 시간 단위 모델 기준을 만족하는 것으로 나타나 본 연구에서 제안한 단계적 모델 개선 방법의 적용 가능성을 확인할 수 있었다.

종합적으로 지연 입력 변수, 데이터 정규화, 데이터 필터링 및 하이퍼파라미터 튜닝을 단계적으로 적용함으로써 LSTM 기반 냉방부하 예측 모델의 설명력과 예측정확도를 효과적으로 향상시킬 수 있음을 확인하였다.


5. 결론

본 연구에서는 업무용 건물의 냉방부하 예측 성능 향상을 위해 LSTM (Long Short-Term Memory) 기반 예측 모델을 구축하고, 데이터 전처리 및 모델 학습 전략을 단계적으로 적용하여 예측 성능의 변화를 분석하였다. 이를 위해 기상청 종관기상관측자료를 활용하여 기상데이터를 구축하고, EnergyPlus 시뮬레이션을 통해 생성된 업무용 건물의 냉방부하 데이터를 활용하여 학습 데이터를 구성하였다. 이후 지연 입력 변수, 데이터 정규화, 데이터 필터링 및 하이퍼파라미터 튜닝을 순차적으로 적용한 총 6개의 예측 모델을 구축하고 각 단계별 예측 성능을 비교 분석하였다.

연구 결과, 초기 모델인 Case 1에서는 R2값이 0.3955로 나타나 냉방부하 예측성능이 낮았으며 CvRMSE 또한 139.7%로 매우 큰 예측 오차를 보였다. 이후 지연 입력 변수를 적용한 Case 2에서는 R2값이 0.7687로 크게 향상되어 냉방부하의 시간적 의존성을 고려하는 것이 예측성능 향상에 중요한 요소임을 확인하였다. 또한 데이터 정규화를 적용한 Case 3에서는 입력 변수 간 데이터 스케일 차이가 완화되면서 모델 학습 안정성이 향상되었고, 저부하 데이터 필터링을 적용한 Case 4에서는 CvRMSE가 26.3%로 크게 감소하여 예측 오차가 현저히 개선되는 결과를 확인하였다.

지연 입력 변수, 데이터 정규화 및 데이터 필터링을 동시에 적용한 Case 5에서는 R2값이 0.9215로 크게 향상되었으며 CvRMSE는 12.2%로 감소하여 모델의 예측 정확도가 크게 향상되었다. 마지막으로 하이퍼파라미터 튜닝을 적용한 Case 6에서는 R2 값이 0.9318로 가장 높은 값을 나타냈으며 CvRMSE는 11.5%, MBE는 −2.7%로 나타나 예측 오차와 예측 편향이 모두 감소하였다. 또한 최종 모델의 CvRMSE와 MBE 값은 ASHRAE Guideline 14에서 제시하는 시간 단위 모델 기준을 만족하는 것으로 나타나 본 연구에서 제안한 모델 개선 방법의 실용적 적용 가능성을 확인할 수 있었다.

본 연구의 주요 특징은 LSTM을 기반으로 한 업무용 건물의 냉방부하 예측 모델의 성능 향상을 위해 데이터 처리 기법과 학습 전략을 단계적으로 적용하고 각 단계별 성능 변화를 체계적으로 분석하였다는 점에 있다. 기존 연구에서는 단일 모델 구조 또는 특정 데이터 처리 방법의 효과를 개별적으로 분석하는 경우가 많았으나, 본 연구에서는 지연 입력 변수, 데이터 정규화, 데이터 필터링 및 하이퍼파라미터 튜닝을 통합적인 관점에서 적용하고 그 효과를 정량적으로 비교하였다. 이를 통해 각 요소가 냉방부하 예측성능에 미치는 영향을 체계적으로 분석하였다. 또한 본 연구는 LSTM 기반 냉방부하 예측 모델의 성능을 단계적으로 개선할 수 있는 데이터 기반 모델 구축 방법을 제시하였으며, 이를 통해 건물 에너지 관리 시스템(BEMS) 및 실무에서 활용 가능한 예측 기반 운영 전략의 기초 자료를 제공하였다.

향후 연구에서는 실제 건물 운영 데이터를 대상으로 할 경우에 예상되는 모델의 성능 저하 요소에 대응할 수 있도록 실측데이터를 활용한 모델 검증과 다양한 기상 조건 및 건물 특성을 고려한 예측 모델 확장이 필요할 것으로 판단된다. 또한 냉방부하 예측 결과를 공조 시스템의 최적 운전 제어 전략과 연계하여 건물 에너지 소비 절감 효과를 분석하는 연구를 추가적으로 수행할 예정이다.

Acknowledgments

이 논문은 2023년도 정부(교육부)의 재원으로 한국연구재단의 지원을 받아 수행된 기초연구사업임(No. RS-2023-00248898).

이 논문은 정부(과학기술정보통신부)의 재원으로 한국연구재단의 지원을 받아 수행된 연구임(RS-2025-00522046).

References

  • International Energy Agency, Energy Efficiency 2023, 2023.
  • D. Urge-Vorsatz et al., Heating and cooling energy trends and drivers in buildings, Renewable and Sustainable Energy Reviews, 41, 2015, pp.85-98. [https://doi.org/10.1016/j.rser.2014.08.039]
  • T. Ahmad et al., A comprehensive overview on the data driven and large scale based approaches for forecasting of building energy demand: A review, Energy and Buildings, 165, 2018, pp.301-320. [https://doi.org/10.1016/j.enbuild.2018.01.017]
  • L. Zhang et al., A review of machine learning in building load prediction, Applied Energy, 285, 2021, pp.116452. [https://doi.org/10.1016/j.apenergy.2021.116452]
  • D. Kim et al., Forecasting building energy demand and on-site power generation for residential buildings using long and short-term memory method with transfer learning, Applied Energy, 368, 2024, 123500. [https://doi.org/10.1016/j.apenergy.2024.123500]
  • R. Sendra-Arranz, A. Gutierrez, A long short-term memory artificial neural network to predict daily HVAC consumption in buildings, Energy and Buildings, 216, 2020, 109952. [https://doi.org/10.1016/j.enbuild.2020.109952]
  • N. Somu, G.R. M R, K. Ramamritham, A deep learning framework for building energy consumption forecast, Renewable and Sustainable Energy Reviews, 137, 2021, 110591. [https://doi.org/10.1016/j.rser.2020.110591]
  • C. Fan et al., A review on data preprocessing techniques toward efficient and reliable knowledge discovery from building operational data, Frontiers in Energy Research, 9, 2021, 652801. [https://doi.org/10.3389/fenrg.2021.652801]
  • H. Yu et al., Short-term cooling and heating loads forecasting of building district energy system based on data-driven models, Energy and Buildings, 298, 2023, 113513. [https://doi.org/10.1016/j.enbuild.2023.113513]
  • 기상청, 기상자료개방포털, https://data.kma.go.kr, , 2026.03.08.
    Korea Meteorological Administration, Open MET data portal, https://data.kma.go.kr, , 2026.03.08.
  • 국토교통부, 건물에너지절약설계기준, https://www.law.go.kr, , 2022.
    Ministry of Land, Infrastructure and Transport, Building energy conservation design standards, https://www.law.go.kr, , 2022.
  • 한국에너지공단, 건축물 에너지효율등급 인증제도 업무용 건축물 용도 프로필, 2021.
    Korea Energy Agency, Building energy efficiency rating system: Office building use profile, 2021.
  • M. Deru et al., U.S. department of energy commercial reference building models of the national building stock, National Renewable Energy Laboratory, 2011. [https://doi.org/10.2172/1009264]
  • American Society of Heating, Refrigerating and Air-Conditioning Engineers, ANSI/ASHRAE/IES standard 90.1-2022: Energy standard for buildings except low-rise residential buildings, 2022.
  • K. Cabello-Solorzano et al., The impact of data normalization on the accuracy of machine learning algorithms: A comparative analysis, Proceedings of International Conference on Soft Computing Models in Industrial and Environmental Applications, Cham: Springer Nature Switzerland, 2023. [https://doi.org/10.1007/978-3-031-42536-3_33]
  • L. Zhang, M. Alahmad, J. Wen, Comparison of time-frequency-analysis techniques applied in building energy data noise cancellation for building load forecasting: A real-building case study, Energy and Buildings, 231, 2021, 110592. [https://doi.org/10.1016/j.enbuild.2020.110592]
  • American Society of Heating, Refrigerating and Air-Conditioning Engineers, ASHRAE guideline 14-2014: Measurement of energy, demand, and water savings, 2014.

Fig. 1.

Fig. 1.
Modeling of medium office building

Fig. 2.

Fig. 2.
Architecture of the Long Short-Term Memory (LSTM) cell used for time-series learning

Fig. 3.

Fig. 3.
Process of generating cooling load training data

Fig. 4.

Fig. 4.
Scatter plots between actual and predicted cooling load for each LSTM prediction model (case 1-case 6)

Fig. 5.

Fig. 5.
Comparison of CvRMSE values for each LSTM prediction model (case 1-case 6)

Fig. 6.

Fig. 6.
Comparison of MBE distributions of the LSTM prediction model (case 1-case 6)

Table 1.

Simulation condition of the reference building (medium office building)

Component Features
Building type Medium Office
Total building area 4982 (m2)
Site location Seoul (latitude: 37.57°N, longitude: 126.97°E)
Operation schedule 09:00~18:00
Internal gain Lighting 6.0 (W/m2)
People 18.58 (m2/person), 1 met
Plug and Process 8.0 (W/m2)
Envelope Wall 0.168, Roof 0.131,
Floor 0.189 (W/m2·K)
Window 1.29 (W/m2·K) SHGC 0.581
SetPoint Cooling 26 (℃)
Infiltration 0.3 ACH

Table 2.

Model hyperparameters and training settings

Category Parameter Description
Data configuration Input features 7 variables (hour, weekend, temp, humidity, solar, cycle, onoff)
Target variable Total zone sensible load
Data split ratio 80% training / 20% testing (chronological)
Network architecture Model type Stacked LSTM (Long Short-Term Memory)
Number of LSTM units 300
Fully connected units 100
Dropout rate 0.2
Training settings Optimizer Adam (adaptive moment estimation)
Initial learning rate 0.001
Mini-batch size 128
Maximum epochs 50
Learning rate schedule Piecewise (drop factor: 0.5, drop period: 50)
Gradient threshold 1.0

Table 3.

Configuration of stepwise LSTM prediction models

Case Description
Case 1 Baseline model
Case 2 Time-lagged input variables
Case 3 Lagged input + Z-score normalization
Case 4 Lagged input + Data filtering
Case 5 Lagged input + Z-score normalization + Data filtering
Case 6 Final model with optimized hyperparameters

Table 4.

CvRMSE statistics of LSTM prediction models for each case

Zone Case 1 Case 2 Case 3 Case 4 Case 5 Case 6
*S.D: Standard Deviation
Average 139.7 86.1 66.9 26.3 12.2 11.5
Maximum 141.7 87.4 69.5 28.6 12.6 12.0
Minimum 137.5 85.0 64.5 23.4 12.0 11.2
S.D 1.5 1.0 1.9 2.2 0.3 0.3

Table 5.

MBE statistics of LSTM prediction models for each case

Zone Case 1 Case 2 Case 3 Case 4 Case 5 Case 6
*S.D: Standard Deviation
Average -15.6 -10.8 -7.3 -5.9 -3.4 -2.7
Maximum -4.8 -8.5 -1.3 -3.4 -2.6 -2.2
Minimum -25.6 -13.4 -16.4 -8.8 -4.3 -3.1
S.D 9.4 1.8 6.6 2.2 0.9 0.4