فرمت داده پارکت چیست؟
فرمت داده پارکت چیست؟

تصویری: فرمت داده پارکت چیست؟

تصویری: فرمت داده پارکت چیست؟
تصویری: مقدمه ای بر پارکت آپاچی 2024, نوامبر
Anonim

آپاچی پارکت یک ستون گرا رایگان و منبع باز است داده ها ذخیره سازی قالب از اکوسیستم آپاچی هادوپ با اکثر موارد سازگار است داده ها فریم ورک های پردازش در محیط Hadoop. کارآمد را فراهم می کند داده ها طرح‌های فشرده‌سازی و رمزگذاری با عملکرد پیشرفته برای مدیریت پیچیده داده ها به صورت فله.

به سادگی، فرمت فایل پارکت چیست؟

پارکت ، یک منبع باز فرمت فایل برای هادوپ پارکت ساختارهای داده تو در تو را در ستونی تخت ذخیره می کند قالب . در مقایسه با رویکرد سنتی که در آن داده ها در رویکرد ردیف گرا ذخیره می شوند، پارکت از نظر ذخیره سازی و عملکرد کارآمدتر است.

علاوه بر این، پارکت برای چه مواردی استفاده می شود؟ پارکت یک فرمت فایل منبع باز است که برای هر پروژه ای در اکوسیستم Hadoop در دسترس است. آپاچی پارکت برای فرمت ذخیره سازی ستونی مسطح کارآمد و عملکردی داده ها در مقایسه با فایل های ردیفی مانند فایل های CSV یا TSV طراحی شده است.

علاوه بر این، قالب پارکت چگونه داده ها را ذخیره می کند؟

داده ها BLOCK هر بلوک در پارکت فایل است ذخیره شده است در قالب گروه های ردیفی بنابراین، داده ها در یک پارکت فایل به چند گروه ردیف تقسیم می شود. این گروه‌های سطر به نوبه خود از یک یا چند تکه ستون تشکیل شده‌اند که مربوط به ستونی است داده ها تنظیم. این داده ها برای هر قطعه ستون نوشته شده در قالب صفحات.

آیا پارکت انسان قابل خواندن است؟

ORC، پارکت و Avro نیز ماشینی هستند قابل خواندن فرمت های باینری، که به این معناست که فایل ها شبیه به ابهام هستند انسان . اگر نیاز داری یک انسان - قابل خواندن فرمت هایی مانند JSON یا XML، پس احتمالاً باید دوباره در وهله اول دلیل استفاده از Hadoop را در نظر بگیرید.

توصیه شده: