فهرست مطالب:

جمع آوری PySpark چیست؟
جمع آوری PySpark چیست؟

تصویری: جمع آوری PySpark چیست؟

تصویری: جمع آوری PySpark چیست؟
تصویری: Apache Spark / آموزش PySpark: اصول اولیه در 15 دقیقه 2024, نوامبر
Anonim

جمع آوری کنید (عمل) - تمام عناصر مجموعه داده را به عنوان یک آرایه در برنامه درایور برگردانید. این معمولاً پس از فیلتر یا عملیات دیگری که زیرمجموعه‌ای کوچک از داده‌ها را برمی‌گرداند، مفید است.

به این ترتیب، PySpark چیست؟

PySpark برنامه نويسي. PySpark همکاری Apache Spark و Python است. Apache Spark یک چارچوب محاسباتی خوشه ای منبع باز است که بر اساس سرعت، سهولت استفاده و تجزیه و تحلیل جریان ساخته شده است در حالی که پایتون یک زبان برنامه نویسی همه منظوره و سطح بالا است.

همچنین نقشه در PySpark چیست؟ جرقه نقشه دگرگونی. آ نقشه یک عملیات تبدیل در آپاچی اسپارک است. برای هر عنصر RDD اعمال می شود و نتیجه را به عنوان RDD جدید برمی گرداند. نقشه یک RDD با طول N را به RDD دیگری با طول N تبدیل می کند. RDD های ورودی و خروجی معمولاً تعداد رکوردهای یکسانی دارند.

به این ترتیب SparkContext در PySpark چیست؟

PySpark - SparkContext . آگهی ها. SparkContext نقطه ورود به هر است جرقه عملکرد. وقتی هر کدام را اجرا می کنیم جرقه برنامه، یک برنامه درایور شروع می شود که عملکرد اصلی و شما را دارد SparkContext در اینجا آغاز می شود. سپس برنامه درایور عملیات های داخل مجری ها را روی گره های کارگر اجرا می کند.

چگونه نسخه PySpark را بررسی کنم؟

2 پاسخ

  1. Spark shell Terminal را باز کنید و دستور را وارد کنید.
  2. sc.version یا spark-submit --version.
  3. ساده ترین راه این است که فقط "spark-shell" را در خط فرمان راه اندازی کنید. را نمایش خواهد داد.
  4. نسخه فعال فعلی Spark.

توصیه شده: