OpenZL: új nyílt forráskódú formátum tömörítési keretrendszert mutatott be a Meta

A Meta bemutatta az OpenZL nevű új nyílt forráskódú tömörítési keretrendszert, amely veszteségmentes tömörítést kínál strukturált adatokhoz. A kezdeményezés célja, hogy ötvözze a formátumspecifikus tömörítők teljesítményét az egységes, karbantartható bináris megoldások egyszerűségével.

Tartalomjegyzék

OpenZL: új nyílt forráskódú formátum tömörítési keretrendszert mutatott be a Meta

Strukturált adatok tömörítése új megközelítésben

Az OpenZL egy új nyílt forráskódú keretrendszer, amely veszteségmentes tömörítést kínál strukturált adatokhoz, miközben egyesíti a formátumspecifikus tömörítők hatékonyságát és az egységes bináris rendszer karbantarthatóságát. A Meta fejlesztése konfigurálható transzformációkat alkalmaz, amelyek az adatok belső mintázatait tárják fel, ezáltal növelve a tömörítés hatékonyságát. A rendszer képes automatikusan tanulni az adatok szerkezetéből: az SDDL nyelv segítségével a felhasználó megadhatja a formátum felépítését, majd az offline tanuló komponens elkészíti a legjobb tömörítési tervet.

A folyamat eredménye egy konkrét dekódolási recept, amely minden OpenZL-állományban megtalálható, így az univerzális dekóder bármelyik fájlt képes visszafejteni. Ez a megközelítés egyszerűsíti a biztonsági auditokat, gyorsítja a frissítéseket és minimalizálja az üzemeltetési kockázatokat. A szoftver dinamikus viselkedést is támogat: a tömörítési folyamat futásidőben statisztikák alapján képes optimalizálni a kiválasztott eljárásokat, így alkalmazkodik az adatok változásaihoz anélkül, hogy új dekódert igényelne.

Teljesítmény, korlátok és jövőkép

A Meta által közzétett tesztek szerint az OpenZL jelentős tömörítési arányt és sebességet biztosít olyan formátumok esetén, ahol a struktúra explicit módon megadható, például Parquet, CSV vagy oszlopos numerikus adatoknál. Az ERA5 és Binance adatkészleteken az OpenZL nagyobb tömörítési arányt ért el, miközben a sebessége is versenyképes maradt, ami különösen adatközponti felhasználásnál fontos. Ha azonban a bemenet teljesen strukturálatlan, például szöveges dokumentumok esetén, az OpenZL automatikusan visszatér a Zstandard használatához.

A rendszer kifejezetten alkalmas vektoros, táblázatos és hierarchikus adatok, például idősorok vagy gépi tanulási tenzorok tömörítésére, és lehetőséget ad a különböző tömörítési stratégiák automatikus újratanítására az adatok változásának függvényében. A fejlesztők célja a transzformációs könyvtár bővítése, a tanuló algoritmus gyorsítása és a komplex adatformátumok pontosabb leírása. Az OpenZL nyílt forráskódú projektként elérhető a GitHubon, és a Meta a közösségi részvételre számít a formátumleírások, tömörítési grafikonok és új kódolási stratégiák fejlesztésében, hogy az OpenZL a jövő formátum-tudatos adattömörítési megoldásának alapjává váljon.

További részletes információk a bejelentésben olvashatóak.

Csatlakozz Telegram közösségünkhöz!

Csatlakozz Discord közösségünkhöz!

Itt állítsd be, hogy a Pingvinbázis elsők között legyen a Google-találatokban!

Nézd meg ezt is

Tartalomjegyzék

Strukturált adatok tömörítése új megközelítésben

Teljesítmény, korlátok és jövőkép

Nézd meg ezt is

Linus Torvalds szerint a Linux kernel nem AI-ellenes, és nem ideológiai mozgalom

A Fedora 45 kiadásba könnyített GRUB-csomag érkezik

Megjelent a Linux 7.2-rc3 kernel, amely a SEGA Dreamcast illesztőprogramjainak hibái mellett a Realtek RTL8723BS Wi-Fi-vezérlő biztonsági sebezhetőségeit is javítja

A TypeScript 7.0 akár tizenkétszer gyorsabb fordításra is képes