OpenZL: új nyílt forráskódú formátum tömörítési keretrendszert mutatott be a Meta

A Meta bemutatta az OpenZL nevű új nyílt forráskódú tömörítési keretrendszert, amely veszteségmentes tömörítést kínál strukturált adatokhoz. A kezdeményezés célja, hogy ötvözze a formátumspecifikus tömörítők teljesítményét az egységes, karbantartható bináris megoldások egyszerűségével.

OpenZL: új nyílt forráskódú formátum tömörítési keretrendszert mutatott be a Meta

Strukturált adatok tömörítése új megközelítésben

Az OpenZL egy új nyílt forráskódú keretrendszer, amely veszteségmentes tömörítést kínál strukturált adatokhoz, miközben egyesíti a formátumspecifikus tömörítők hatékonyságát és az egységes bináris rendszer karbantarthatóságát. A Meta fejlesztése konfigurálható transzformációkat alkalmaz, amelyek az adatok belső mintázatait tárják fel, ezáltal növelve a tömörítés hatékonyságát. A rendszer képes automatikusan tanulni az adatok szerkezetéből: az SDDL nyelv segítségével a felhasználó megadhatja a formátum felépítését, majd az offline tanuló komponens elkészíti a legjobb tömörítési tervet.

A folyamat eredménye egy konkrét dekódolási recept, amely minden OpenZL-állományban megtalálható, így az univerzális dekóder bármelyik fájlt képes visszafejteni. Ez a megközelítés egyszerűsíti a biztonsági auditokat, gyorsítja a frissítéseket és minimalizálja az üzemeltetési kockázatokat. A szoftver dinamikus viselkedést is támogat: a tömörítési folyamat futásidőben statisztikák alapján képes optimalizálni a kiválasztott eljárásokat, így alkalmazkodik az adatok változásaihoz anélkül, hogy új dekódert igényelne.

Teljesítmény, korlátok és jövőkép

A Meta által közzétett tesztek szerint az OpenZL jelentős tömörítési arányt és sebességet biztosít olyan formátumok esetén, ahol a struktúra explicit módon megadható, például Parquet, CSV vagy oszlopos numerikus adatoknál. Az ERA5 és Binance adatkészleteken az OpenZL nagyobb tömörítési arányt ért el, miközben a sebessége is versenyképes maradt, ami különösen adatközponti felhasználásnál fontos. Ha azonban a bemenet teljesen strukturálatlan, például szöveges dokumentumok esetén, az OpenZL automatikusan visszatér a Zstandard használatához.

A rendszer kifejezetten alkalmas vektoros, táblázatos és hierarchikus adatok, például idősorok vagy gépi tanulási tenzorok tömörítésére, és lehetőséget ad a különböző tömörítési stratégiák automatikus újratanítására az adatok változásának függvényében. A fejlesztők célja a transzformációs könyvtár bővítése, a tanuló algoritmus gyorsítása és a komplex adatformátumok pontosabb leírása. Az OpenZL nyílt forráskódú projektként elérhető a GitHubon, és a Meta a közösségi részvételre számít a formátumleírások, tömörítési grafikonok és új kódolási stratégiák fejlesztésében, hogy az OpenZL a jövő formátum-tudatos adattömörítési megoldásának alapjává váljon.

További részletes információk a bejelentésben olvashatóak.

Gábor a Pingvinbázis alapítója és főszerkesztője, több mint 20 éves tapasztalattal rendelkezik a Linux rendszerek és az Open Source szoftverek területén. Jártas a Python, és a PHP nyelvben, valamint a BASH scriptelésben is.