Analisis Faktor-Faktor yang Mempengaruhi Biaya Asuransi Kesehatan dengan Diagnosa Multikolinearitas
Abstract
Penelitian ini bertujuan untuk menganalisis faktor-faktor yang memengaruhi biaya asuransi (insurance charges) menggunakan data sekunder dari Kaggle. Data terdiri dari delapan variabel independen dan satu variabel dependen. Analisis dilakukan dengan metode regresi linear berganda, setelah terlebih dahulu dilakukan uji korelasi dan deteksi multikolinearitas. Validasi model menggunakan K-Fold Cross Validation dengan 10 fold menunjukkan model yang stabil dan andal dengan nilai RMSE 6373,668 dan R-squared 0,7245. Hasil penelitian menunjukkan bahwa variabel age (usia), children (jumlah anak), dan discount eligibility memiliki pengaruh signifikan terhadap biaya asuransi, dengan arah hubungan positif. Sementara itu, variabel gender dan region tidak berpengaruh signifikan. Nilai R-squared sebesar 0,7245 mengindikasikan bahwa model mampu menjelaskan 72,45% variasi biaya asuransi. Dengan demikian, faktor usia dan jumlah anak dapat dijadikan acuan penting dalam perhitungan premi, sementara kebijakan discount eligibility perlu ditinjau ulang karena memberikan pengaruh yang sangat besar terhadap biaya. Hasil validasi model mengkonfirmasi keandalan temuan ini untuk diterapkan dalam praktik. Hasil penelitian ini dapat menjadi dasar pertimbangan perusahaan asuransi dalam strategi penetapan harga yang lebih adil dan akurat.
References
Al Haddad, B., Bahtiar, A., & Dwilestari, G. (2024). Jurnal Informatika dan Rekayasa Perangkat Lunak Implementasi Algoritma Regresi Linear Berganda untuk Memprediksi Biaya Asuransi Kesehatan.
Ariesta Candra, P. W., Komang Gde Sukarsa, I., & Gandhiadi, G. (2024). Perbandingan Antara Latent Root Regression dan Ridge Regression dalam Mengatasi Multikolinearitas. Journal Of Social Science Research, 4, 10300–10312.
Cao, C. (2023). Prediction Of Medical Insurance Cost Through Linear Regression Model. In Highlights in Science, Engineering and Technology IFMPT (Vol. 2023).
Cenita, J. A. S., Asuncion, P. R. F., & Victoriano, J. M. (2023). Performance Evaluation of Regression Models in Predicting the Cost of Medical Insurance. https://doi.org/10.25147/ijcsr.2017.001.1.146
Choi, Y., An, J., Ryu, S., & Kim, J. (2022). Development and Evaluation of Machine Learning-Based High-Cost Prediction Model Using Health Check-Up Data by the National Health Insurance Service of Korea. International Journal of Environmental Research and Public Health, 19(20). https://doi.org/10.3390/ijerph192013672
Dieleman, J. L., Squires, E., Bui, A. L., Campbell, M., Chapin, A., Hamavid, H., Horst, C., Li, Z., Matyasz, T., Reynolds, A., Sadat, N., Schneider, M. T., & Murray, C. J. L. (2017). Factors Associated With Increases in US Health Care Spending, 1996-2013. JAMA, 318(17), 1668. https://doi.org/10.1001/jama.2017.15927
Huang, A. W., Haslberger, M., Coulibaly, N., Galárraga, O., Oganisian, A., Belbasis, L., & Panagiotou, O. A. (2022). Multivariable prediction models for health care spending using machine learning: a protocol of a systematic review. Diagnostic and Prognostic Research, 6(1). https://doi.org/10.1186/s41512-022-00119-9
Kaushik, K., Bhardwaj, A., Dwivedi, A. D., & Singh, R. (2022). Article Machine Learning-Based Regression Framework to Predict Health Insurance Premiums. International Journal of Environmental Research and Public Health, 19(13). https://doi.org/10.3390/ijerph19137898
Kumagai, N., & Jakovljević, M. (2024). Random forest model used to predict the medical out-of-pocket costs of hypertensive patients. Frontiers in Public Health, 12. https://doi.org/10.3389/fpubh.2024.1382354
Made, N., Dwikasari, D., Sutramiani, N. P., Sri, K., Putri, Y., Tri, N., Kusuma, R., Dimas, M., Dwi Pramana, A., Agus, W., & Darma, S. (2023). Medical Costs Estimation Using Linear Regression Method.
Nur, A. R., Jaya, A. K., & Siswanto, S. (2023). Comparative Analysis of Ridge, LASSO, and Elastic Net Regularization Approaches in Handling Multicollinearity for Infant Mortality Data in South Sulawesi. Jurnal Matematika, Statistika Dan Komputasi, 20(2), 311–319. https://doi.org/10.20956/j.v20i2.31632
Rahmawati, F., Yoga Suratman, R., Magister Matematika, A., & Gadjah Mada, U. (2022). Leibniz : Jurnal Matematika PERFORMA REGRESI RIDGE DAN REGRESI LASSO PADA DATA DENGAN MULTIKOLINEARITAS.
SISWANTO, S., Gozhi, M. Z. H., Taufik, Muh. I., Kalondeng, A., & Sahriman, S. (2025). Linearized Ridge Regression Modeling with MM-Estimator in Statistical Downscalling for Rainfall Forecasting. Jurnal Matematika, Statistika Dan Komputasi, 21(3), 796–812. https://doi.org/10.20956/j.v21i3.43203
Yumansya, Q., Zy, A. T., Fatchan, M., Kunci, K., Linear, R., & Kesehatan, A. (2023). Prediksi Jumlah Kasus Klaim Indemnity Dengan Menggunakan Algoritma Regresi Linear Pada Asuransi Mandiri Inhealth. Bulletin of Information Technology (BIT), 4(2), 299–305. https://doi.org/10.47065/bit.v3i1
Zou, S., Chu, C., Shen, N., & Ren, J. (2023). Healthcare Cost Prediction Based on Hybrid Machine Learning Algorithms. Mathematics, 11(23). https://doi.org/10.3390/math11234778






