Regresja symboliczna i audyty bazy minimalnej stacku

Regresja symboliczna znajduje wzory, nie predykcje. Czego operator EML uczy deweloperów o redundancji stacku i interpretowalnym ML.

Jakub Czechowski

/ 1 maj 2026 / 7 min czytania

Tagi ai workflow architecture

Świecące rozgałęzione drzewo operatorów obok zredukowanego stacku modułów bazowych, symbolizujące regresję symboliczną i audyty bazy minimalnej.

Niedawna praca na arXiv pokazuje, że standardowy zestaw funkcji elementarnych - sinus, cosinus, logarytm, pierwiastek, stałe π i e oraz arytmetykę zespoloną - można wygenerować z jednego operatora: eml(x, y) = exp(x) − ln(y) połączonego ze stałą 1. Dwie reguły. Kompletna baza.

Praca Andrzeja Odrzywołka, zrewidowana 4 kwietnia 2026 roku, ujmuje EML jako matematyczny analog kompletności NAND w logice: tak jak układy boolowskie można budować z samych bramek NAND, funkcje elementarne da się wyrażać jako skończone drzewa operacji eml. Gramatyka mieści się w jednej linii: S → 1 | eml(S, S). Autor pokazuje też, że taka jednorodna struktura nadaje się do gradientowej regresji symbolicznej i odzyskiwania zamkniętych wzorów z danych numerycznych przy płytkich drzewach, do głębokości 4.

Matematyka broni się sama. Ale w tej pracy są dwie rzeczy, które dobrze przenoszą się na to, jak zespoły deweloperskie budują i utrzymują systemy.

Co baza minimalna oznacza dla audytu stacku

Głębokie pytanie wymuszane przez wynik EML nie brzmi “co możemy zbudować?”, tylko “jaki nieredukowalny zestaw naprawdę jest nam potrzebny?”. Cała reszta jest wyprowadzalna: obecna dla wygody, nie z konieczności.

Większość stacków technologicznych nie jest projektowana w ten sposób. One narastają. Dojrzały produkt SaaS kończy z trzema warstwami cache dodanymi przez trzech inżynierów na trzech etapach firmy. Platforma e-commerce działa na dwóch pluginach SEO zainstalowanych przez różne zespoły, które nigdy ze sobą nie rozmawiały. Warstwa observability wysyła ten sam sygnał zdrowia usługi przez pięć ścieżek alertów, bo każdy incydent urodził nową regułę alertu i nikt nie wyłączył starej.

W realnych audytach stacku powtarza się ten sam wzorzec: redundancja rzadko wygląda jak oczywisty bałagan. Częściej wygląda jak rozsądne narzędzia dodawane w różnych momentach, przez różne osoby, do podobnych zadań. Asystent czatu, narzędzie do uzupełniania kodu, autonomiczny agent i orkiestrator potoku mogą nachodzić na ten sam wąski zestaw prac, a nikt w zespole nie ma już jasnego obrazu, co naprawdę obsługuje co.

Koncepcja bazy minimalnej daje czystszy sposób ujęcia audytu. Zamiast pytać “czy możemy usunąć to narzędzie?” - co zaprasza odpowiedzi obronne - lepsze pytanie brzmi: jaki jest zestaw generujący dla tego stacku? Które narzędzia są operacjami prymitywnymi, a które są kombinacjami możliwymi do odtworzenia przez prymitywy, które już masz?

Praktyczny proces w trzech krokach:

Mapuj wyniki, nie narzędzia. Wypisz, co stack musi produkować: artefakty wdrożeniowe, potoki danych, funkcje widoczne dla użytkownika, sygnały observability. Nie zaczynaj od kategorii narzędzi.
Śledź głębokość wyprowadzenia. Dla każdego wyniku przejdź wstecz przez narzędzia wymagane do jego produkcji. Jeśli łańcuch przekracza 3-4 kroki bez znaczącej transformacji na każdym etapie, prawdopodobnie masz redundancję.
Zidentyfikuj bazę funkcjonalną. Które narzędzia po usunięciu sprawiłyby, że jakaś kategoria wyników stałaby się nieosiągalna? One są nośne. Cała reszta jest kandydatem do konsolidacji.

Wynik EML dotyczący płytkich drzew ma użyteczny odpowiednik operacyjny: im większa głębokość kombinacji, tym szybciej rośnie przestrzeń przeszukiwania. Stacki z więcej niż garścią nakładających się narzędzi pokazują podobną degradację - nie dlatego, że pojedyncze narzędzia są złe, ale dlatego, że powierzchnia integracji mnoży się poza zdolność zespołu do rozumowania o niej. To ten sam wzorzec, który pojawia się, gdy abstrakcje architektoniczne rosną poza punkt, w którym nadal uzasadniają swój narzut.

Regresja symboliczna to interpretowalne ML zwracające wzory

Druga lekcja wynika z kontekstu, w którym pojawia się EML: regresji symbolicznej.

Regresja symboliczna to zadanie znalezienia wzoru matematycznego pasującego do zbioru danych, zamiast dopasowywania modelu, którego wnętrze pozostaje nieprzezroczyste. Różnica w wyniku:

“Dla tych wejść model przewiduje 17.3” - gradient boosting, sieć neuronowa
“Relacja to y = 2x² + sin(x) − 3” - regresja symboliczna

Pierwsze daje predykcję. Drugie daje coś, co możesz wydrukować, przemyśleć, zaimplementować w dowolnym języku i przekazać ekspertowi domenowemu, który nigdy nie słyszał o uczeniu maszynowym.

PySR, open-source’owa biblioteka Milesa Cranmera (arXiv:2305.01582), czyni to operacyjnym. To praktyczna biblioteka do regresji symbolicznej, oparta na backendzie SymbolicRegression.jl i używana w badaniach naukowych. Kluczowym wynikiem nie jest pojedyncza predykcja, tylko lista wzorów ułożonych wzdłuż granicy Pareto między złożonością a trafnością. Ty wybierasz, ile warta jest prostota wobec tego, ile dopasowania potrzebujesz.

Trzy miejsca, gdzie regresja symboliczna bije czarną skrzynkę

Prognozowanie popytu z audytowalną logiką. Model typu gradient boosting dla tygodniowego popytu może osiągnąć mocną trafność, ale nie daje nic, o czym można rozumować, gdy prognoza się psuje. Regresja symboliczna na tym samym zbiorze danych może zwrócić demand ≈ base × (1 + 0.4 · sin(2π · week/52)) × inventory^0.6. Ten wzór jest bezpośrednio czytelny: cykl sezonowy o amplitudzie 40%, subliniowy efekt stanów magazynowych. Można go przekazać ekspertowi domenowemu, zakwestionować i poprawić. Da się go przenieść do arkusza kalkulacyjnego. Może działać jako alert progowy bez endpointu do serwowania modelu.

Planowanie pojemności z alertami progowymi. Zespoły infrastruktury budują modele obciążenia, a potem mają problem z wyjaśnieniem ich finansom albo operacjom. Regresja symboliczna na historycznych metrykach produkuje algebraiczną relację między wolumenem żądań, długością sesji i zużyciem pamięci - taką, którą można bezpośrednio osadzić w regule monitoringu. Bez endpointu inferencji, bez monitoringu dryfu modelu, bez potoku ponownego trenowania.

Audytowalne reguły cenowe. Modele cenowe, które muszą dać się obronić - przed wewnętrzną kontrolą, przeglądem regulacyjnym albo w negocjacjach kontraktów enterprise - nie mogą być czarnymi skrzynkami. Dopasowanie regresji symbolicznej produkuje wzór, który sprzedaż, legal i finanse mogą obejrzeć, przedyskutować i zaakceptować. To wymaganie pojawia się w kontekstach B2B znacznie częściej, niż przyznaje większość dyskusji o adopcji ML.

Czym regresja symboliczna różni się od dopasowania krzywej

Oczywisty zarzut: czy to nie jest po prostu regresja wielomianowa z dodatkowymi krokami?

Nie. Klasyczne dopasowanie krzywej wymaga najpierw wyboru formy funkcyjnej - liniowej, kwadratowej, wykładniczej - a potem dopasowania współczynników. Regresja symboliczna przeszukuje formy funkcyjne równocześnie. Może znaleźć, że Twoje dane lepiej opisuje a · log(b + x) niż jakikolwiek wielomian, który próbowałeś, bez wymagania, żebyś zgadł tę formę z góry.

PySR używa ewolucyjnego przeszukiwania drzew wyrażeń, prowadzonego przez optymalizację Pareto między trafnością a złożonością. Wynikiem jest zestaw wyrażeń wzdłuż granicy złożoności: wyrażenie o głębokości 2 może uchwycić większość sygnału, a głębsze wyrażenie może poprawić dopasowanie kosztem czytelności. Wybierasz na podstawie tego, czego wymaga kontekst wdrożenia.

Istotne przeformułowanie dla zespołów inżynieryjnych: regresja symboliczna jest właściwa, gdy potrzebujesz modelu, który jest przenośny (wzór działa wszędzie, bez zależności od środowiska wykonawczego), audytowalny (ludzie mogą go przeczytać i zweryfikować) oraz stabilny (brak potoku ponownego trenowania po walidacji wzoru). Te trzy właściwości razem opisują dużą klasę operacyjnych metryk biznesowych, które zespoły dziś obsługują dużo cięższą maszynerią - ten sam wzorzec działa, gdy narzędzia AI są dodawane do procesu, który nie potrzebował dodatkowej warstwy.

Dwie ramy z jednej pracy matematycznej

Wynik EML jest matematycznie elegancki. Jego praktyczna wartość dla zespołów inżynieryjnych leży w tym, co wyjaśnia o strukturze złożoności.

Myślenie bazą minimalną przeformułowuje audyty stacku z defensywnego uzasadniania narzędzie po narzędziu na pytanie generatywne: co jest nieredukowalnym zestawem, a co jest wyprowadzone? To przeformułowanie wydobywa redundancję, którą inkrementalne przeglądy pomijają, bo zmienia domyślne założenie z “zostaw, chyba że udowodniono zbędność” na “uzasadnij jako prymityw albo zredukuj do tego, co masz”.

Regresja symboliczna przez PySR czyni interpretowalne ML dostępne dla klasy problemów biznesowych, w których istnieją kompaktowe relacje. Wynik EML jest tu dobrym przypomnieniem: jeśli rzeczywista zależność da się wyrazić płytkim drzewem funkcji elementarnych, wzór bywa lepszym artefaktem niż model z wagami.

Przed dodaniem narzędzia: jaki jest jego prymitywny wkład i które istniejące prymitywy już go pokrywają? Przed trenowaniem modelu: czy wystarczy wzór, a jeśli tak, jakie są operacyjne przewagi posiadania wzoru zamiast wag?

To starsze pytania ubrane w nowy język. Praca o EML sprawia, że trudniej je ignorować.

Jeśli te kompromisy - kiedy dodać narzędzie, kiedy sięgnąć po wzór zamiast modelu - są decyzjami, przez które przechodzisz z zespołem, CMS Conf jest warte sprawdzenia. Prelekcje zwykle są na poziomie praktyków i obejmują dokładnie ten typ decyzji architektonicznych oraz narzędziowych, na które wskazuje ta praca.

Źródła

Andrzej Odrzywołek, “All elementary functions from a single binary operator”, arXiv:2603.21852v2, April 2026 - https://arxiv.org/abs/2603.21852
Miles Cranmer et al., “Interpretable Machine Learning for Science with PySR and SymbolicRegression.jl”, arXiv:2305.01582 - https://arxiv.org/abs/2305.01582
PySR GitHub repository - https://github.com/MilesCranmer/PySR