Sembolik Regresyon (SR), makine öğrenimi (ML) içinde hızla büyüyen ve verilerden sembolik matematiksel ifadeler çıkarmayı amaçlayan bir alt alandır. Bu alan, sadece doğru tahmin modellerine sahip olmanın yeterli olmadığını, aynı zamanda öğrenilen modellerin anlaşılabilir olmasının da gerekli olduğunu vurgular. Bir model, girdi ve çıktı arasındaki ilişkiyi mantıksal veya matematiksel olarak izlenebilir kılarsa anlaşılabilir olarak kabul edilir. Doğal bilimlerde, ilk prensiplerden türetilmiş matematiksel modeller, derin sinir ağları gibi tahmin modellerinin sunamayacağı bir şekilde altta yatan fenomeni anlamayı mümkün kılar. Bu nedenle, özellikle veri zengini disiplinlerde anlaşılabilir modellere olan talep artmaktadır​.

Problemin Tanımı

Sembolik Regresyon, verilerden matematiksel ifadeleri türetmek için kullanılan bir yöntemdir. Bu yöntem, genetik programlama (GP) ile geleneksel olarak ele alınmış ve son zamanlarda derin öğrenme tekniklerinin de dahil edilmesiyle önemli ilerlemeler kaydetmiştir. GP, bireylerin başlangıç popülasyonunu biyolojik olarak ilham alınan operasyonlar aracılığıyla evrimleştirir. SR yöntemleri, doğruluk ve yorumlanabilirlik arasında bir denge kurmayı amaçlar. Ancak GP tabanlı yöntemler, yüksek boyutlu veri kümelerine ölçeklenme ve hiperparametrelere duyarlılık gibi zorluklarla karşı karşıyadır​.

Sembolik Regresyon Yöntemlerine Bakış

SR yöntemleri, genetik programlamadan derin öğrenmeye kadar geniş bir yelpazede yer alır. Genetik programlama tabanlı yöntemler, yüksek tahmin doğruluğu sağlar ancak bazı sınırlamaları vardır. Daha yeni yaklaşımlar, derin öğrenme tekniklerini kullanarak sembolik modelleri öğrenmeyi hedefler. Bu yöntemler, nötral ağları kullanarak doğru sembolik modeller öğrenmeyi mümkün kılar. Derin öğrenme tabanlı SR yöntemleri, astrofizik, kimya, malzeme bilimi, tıbbi alanlar gibi birçok temel ve uygulamalı bilimde kullanılmıştır​.

Sembolik Regresyon Yöntemleri

SR’nin çeşitli yöntemleri bulunmaktadır. Bunlar arasında lineer sembolik regresyon, nonlineer sembolik regresyon ve ağaç tabanlı yöntemler öne çıkar.

  • Lineer Sembolik Regresyon: Bu yöntem, özellikle basit modellerin oluşturulmasında kullanılır. Unidimensional ve multidimensional olmak üzere iki ana alt kategoriye ayrılır.
  • Nonlineer Sembolik Regresyon: Karmaşık ve nonlineer ilişkileri modellemek için kullanılır. Bu yöntemde genellikle genetik programlama ve diğer evrimsel algoritmalar kullanılır.
  • Ağaç Tabanlı Yöntemler: Genetik programlama, sembolik regresyon ağaçları oluşturmak için yaygın olarak kullanılır. Bu yöntemler, veri setlerindeki karmaşık ilişkileri modellemek için idealdir.

Tartışma

SR yöntemleri, doğruluk ve anlaşılabilirlik arasında bir denge kurmaya çalışırken, çeşitli zorluklarla karşı karşıya kalmaktadır. Yöntemlerin hiperparametre duyarlılığı ve yüksek boyutlu veri kümelerine ölçeklenme yeteneği, bu zorluklardan bazılarıdır. Ancak, derin öğrenme tabanlı yeni yaklaşımlar, bu zorlukları aşma potansiyeline sahiptir. SR’nin gelecekteki gelişimi, bu zorlukların üstesinden gelme ve daha geniş uygulama alanlarına yayılma potansiyeline sahiptir​.

Bu alanda kullanılan Kütüphaneler

1. DEAP (Distributed Evolutionary Algorithms in Python)

DEAP, genetik programlama ve diğer evrimsel algoritmaların uygulanması için güçlü ve esnek bir kütüphanedir.

  • Özellikler: Genetik algoritmalar, genetik programlama, çok amaçlı optimizasyon.
  • Kullanım Alanları: SR için genetik programlama algoritmalarını uygulamak.

2. gplearn

gplearn, scikit-learn tabanlı bir genetik programlama kütüphanesidir. SR için kullanımı kolay ve iyi belgelenmiş bir kütüphanedir.

  • Özellikler: SR, genetik programlama, skaler ve çoklu çıktı desteği.
  • Kullanım Alanları: SR modelleri oluşturmak ve test etmek.

3. SymPy

SymPy, Python’da sembolik matematik için kullanılan bir kütüphanedir. SR ile elde edilen matematiksel modellerin işlenmesi ve analizi için kullanılır.

  • Özellikler: Sembolik hesaplama, matematiksel ifadelerin türevlenmesi ve sadeleştirilmesi.
  • Kullanım Alanları: SR sonuçlarının sembolik olarak ifade edilmesi ve analiz edilmesi.

4. PySr

PySR, sembolik regresyon için Julia tabanlı, Python arayüzü sunan bir kütüphanedir. Hızlı ve etkili sembolik regresyon modelleri oluşturmak için kullanılır.

  • Özellikler: Hızlı sembolik regresyon, otomatize model keşfi, Julia entegrasyonu.
  • Kullanım Alanları: SR için hızlı ve etkili sembolik modeller oluşturmak.

5. Multi-objective Symbolic Regression

  • Özellikler: Birden fazla hedefi aynı anda optimize etme yeteneği.
  • Kullanım Alanları: Doğruluk ve model karmaşıklığı gibi çeşitli hedefler arasında denge kurmak.

6. Eureka

  • Özellikler: Sembolik regresyon için kullanımı kolay bir platform.
  • Kullanım Alanları: Bilimsel keşifler ve veri analizi için sembolik modeller oluşturmak.

7. TuringBot

  • Özellikler: Otomatik model keşfi, sembolik regresyon.
  • Kullanım Alanları: Karmaşık veri setlerinden otomatik olarak matematiksel modeller oluşturmak.

Kaynaklar

  1. Abdellaoui IA, Mehrkanoon S. “Symbolic regression for scientific discovery: an application to wind speed forecasting.” 2021 IEEE symposium series on computational intelligence (SSCI), 2021, pp. 01-08.
  2. Alaa AM, van der Schaar M. “Demystifying black-box models with symbolic metamodels.” Advances in neural information processing systems, vol. 32, Curran Associates Inc, New York, 2019.
  3. Arnaldo I, Krawiec K, O’Reilly U-M. “Multiple regression genetic programming.” Proceedings of the 2014 annual conference on genetic and evolutionary computation. GECCO ’14. Association for Computing Machinery, New York, NY, USA, 2014, pp. 879-886.
  4. Wang Y, Wagner N, Rondinelli JM. “Symbolic regression in materials science.” MRS Commun 9(3):793-805, 2019.
  5. Wei J, Tay Y, Bommasani R, et al. “Emergent abilities of large language models.” 2022.

Trending