فهرست مطالب:

چگونه می توانم PySpark DataFrame را از یک لیست بسازم؟
چگونه می توانم PySpark DataFrame را از یک لیست بسازم؟

تصویری: چگونه می توانم PySpark DataFrame را از یک لیست بسازم؟

تصویری: چگونه می توانم PySpark DataFrame را از یک لیست بسازم؟
تصویری: با استفاده از pySpark برای Azure Synapse Pipelines خود، فهرستی را مرور کنید 2024, ممکن است
Anonim

من این مراحل را برای ایجاد یک DataFrame از لیست تاپل ها دنبال می کنم:

  1. ایجاد کردن آ فهرست از تاپل ها هر تاپل حاوی نام یک فرد با سن است.
  2. ایجاد کردن یک RDD از فهرست در بالا.
  3. تبدیل هر تاپل به یک ردیف
  4. ایجاد کردن آ DataFrame با استفاده از createDataFrame در RDD با کمک sqlContext.

با در نظر گرفتن این موضوع، چگونه می توان یک DataFrame را به یک لیست در پایتون تبدیل کرد؟

  1. مرحله 1: تبدیل Dataframe به آرایه Numpy تو در تو با استفاده از DataFrame.to_numpy () یعنی،
  2. مرحله 2: آرایه 2 بعدی Numpy را به لیستی از لیست ها تبدیل کنید.
  3. مرحله 1: دیتافریم را برای تبدیل سطرها به عنوان ستون و ستون ها به عنوان سطر جابه جا کنید.
  4. مرحله 2: تبدیل Dataframe به آرایه Numpy تو در تو با استفاده از DataFrame.to_numpy()

علاوه بر این، Spark DataFrame چیست؟ آ Spark DataFrame مجموعه ای توزیع شده از داده ها است که در ستون های نامگذاری شده سازماندهی شده اند که عملیات فیلتر کردن، گروه بندی یا محاسبه انبوه ها را فراهم می کند و می تواند با جرقه SQL. DataFrames را می توان از فایل های داده های ساخت یافته، RDD های موجود، جداول موجود در Hive یا پایگاه های داده خارجی ساخت.

همچنین بدانید، PySpark SQL چیست؟

Spark SQL هست یک جرقه ماژول برای پردازش داده های ساخت یافته یک انتزاع برنامه نویسی به نام DataFrames ارائه می دهد و همچنین می تواند به عنوان توزیع شده عمل کند SQL موتور پرس و جو این درخواست‌های اصلاح‌نشده Hadoop Hive را قادر می‌سازد تا 100 برابر سریع‌تر روی استقرارها و داده‌های موجود اجرا شوند.

آیا Spark DataFrames تغییر ناپذیر است؟

که در جرقه شما نمی توانید - DataFrames هستند تغییرناپذیر . شما باید استفاده کنید.

توصیه شده: