RDD در اسکالا چیست؟
RDD در اسکالا چیست؟

تصویری: RDD در اسکالا چیست؟

تصویری: RDD در اسکالا چیست؟
تصویری: RDD در Spark 2024, آوریل
Anonim

مجموعه داده های توزیع شده انعطاف پذیر ( RDD ) یک ساختار داده بنیادی Spark است. این مجموعه ای از اشیاء توزیع شده تغییرناپذیر است. RDD ها می تواند شامل هر نوع پایتون، جاوا یا اسکالا اشیاء، از جمله کلاس های تعریف شده توسط کاربر. به طور رسمی، یک RDD مجموعه ای از رکوردها فقط خواندنی و پارتیشن بندی شده است.

همچنین سوال این است که تفاوت بین RDD و DataFrame چیست؟

RDD – RDD مجموعه ای توزیع شده از عناصر داده است که در بسیاری از ماشین ها پخش شده است در خوشه. RDD ها مجموعه ای از اشیاء جاوا یا اسکالا هستند که داده ها را نشان می دهند. DataFrame - آ DataFrame مجموعه ای توزیع شده از داده ها است که در ستون های نامگذاری شده سازماندهی شده اند. از نظر مفهومی برابر با جدول است در یک پایگاه داده رابطه ای

علاوه بر این، RDD چگونه توزیع می شود؟ ارتجاعی توزیع شده است مجموعه داده ها ( RDD ها ) آنها هستند یک توزیع شده است مجموعه ای از اشیاء که در حافظه یا روی دیسک های ماشین های مختلف یک خوشه ذخیره می شوند. یک مجرد RDD را می توان به چند پارتیشن منطقی تقسیم کرد تا بتوان این پارتیشن ها را در ماشین های مختلف یک خوشه ذخیره و پردازش کرد.

جرقه RDD چگونه کار می کند؟

RDD ها که در جرقه مجموعه ای از رکوردها که حاوی پارتیشن هستند. RDD ها که در جرقه به تکه‌های منطقی کوچکی از داده‌ها تقسیم می‌شوند - که به عنوان پارتیشن شناخته می‌شوند، زمانی که یک عمل اجرا می‌شود، یک کار در هر پارتیشن راه‌اندازی می‌شود. پارتیشن در RDD ها واحدهای اساسی توازی هستند.

RDD یا DataFrame کدام سریعتر است؟

RDD - در حین انجام عملیات ساده گروه بندی و تجمیع RDD API کندتر است. DataFrame - در انجام تجزیه و تحلیل اکتشافی، ایجاد آمار تجمیعی از داده ها، چارچوب های داده هستند سریعتر . RDD - هنگامی که شما می خواهید تحول و اقدامات سطح پایین، ما استفاده می کنیم RDD ها . همچنین، زمانی که به انتزاعات سطح بالا نیاز داریم، از آنها استفاده می کنیم RDD ها.

توصیه شده: