مشکل فایل های کوچک در Hadoop چیست؟
مشکل فایل های کوچک در Hadoop چیست؟

تصویری: مشکل فایل های کوچک در Hadoop چیست؟

تصویری: مشکل فایل های کوچک در Hadoop چیست؟
تصویری: شماره فایل کوچک هدوپ | سوالات مصاحبه هادوپ 2024, ممکن است
Anonim

1) مشکل فایل کوچک که در HDFS : ذخیره سازی مقدار زیادی از فایل های کوچک که فوق العاده هستند کوچکتر از اندازه بلوک نمی توان به طور موثری آن را مدیریت کرد HDFS . خواندن از طریق فایل های کوچک شامل جستجوهای زیاد و پرش های زیاد بین گره داده به گره داده است که به خودی خود پردازش داده ناکارآمد است.

علاوه بر این، کدام فایل ها با مشکلات فایل های کوچک در Hadoop سروکار دارند؟

1) HAR ( هادوپ بایگانی) فایل ها معرفی شده است با مشکل فایل کوچک مقابله کنید . HAR یک لایه در بالای آن معرفی کرده است HDFS ، که رابط را برای فایل دسترسی استفاده كردن هادوپ دستور بایگانی، HAR فایل ها ایجاد می شوند که a را اجرا می کند MapReduce کار بسته بندی فایل ها در حال آرشیو شدن در کوچکتر تعداد فایل های HDFS.

علاوه بر این، آیا می توانم چندین فایل را در HDFS با اندازه های مختلف بلوک داشته باشم؟ پیش فرض اندازه از مسدود کردن 64 مگابایت است. شما می توان بسته به نیاز خود آن را تغییر دهید با آمدن به سوال شما بله شما می تواند چندین فایل ایجاد کند با تغییر دادن اندازه های بلوک اما در زمان واقعی این اراده به نفع تولید نیست

علاوه بر این، چرا HDFS فایل های کوچک را به طور بهینه مدیریت نمی کند؟

مشکلی با چیزی داشتن فایل های کوچک و HDFS هر فایل ، دایرکتوری و مسدود کردن در HDFS است به عنوان یک شی در حافظه نام گره نمایش داده می شود، که هر کدام از آنها 150 بایت را اشغال می کند، به عنوان یک قانون سرانگشتی. علاوه بر این، HDFS نیست برای دسترسی موثر آماده شده است فایل های کوچک : آی تی است در درجه اول برای دسترسی به جریان بزرگ طراحی شده است فایل ها.

چرا هادوپ کند است؟

آهسته. تدریجی سرعت پردازش این دیسک به زمان نیاز دارد و در نتیجه کل فرآیند را بسیار زیاد می کند آهسته. تدریجی . اگر هادوپ پردازش داده ها در حجم کم، بسیار است آهسته. تدریجی به صورت مقایسه ای برای مجموعه داده های بزرگ ایده آل است. مانند هادوپ دارای موتور پردازش دسته ای در هسته است سرعت آن برای پردازش بلادرنگ کمتر است.

توصیه شده: