أدوات هتغير حياتك كعالم بيانات - 2- Tools That Will Transform the Way You Work as a Data Scientist-V2

Data Science بالعربي by Mohamed ElSayed

Episode notes

يدور موضوع الحلقة حول ثلاث أدوات "ثقيلة" ومتقدمة تهدف إلى إدارة البيانات الضخمة

(Big Data) وضمان جودتها: PySpark، وDVC، وGreat Expectations.1. PySpark (سيد البيانات الضخمة)

  • الغرض الرئيسي: معالجة البيانات الضخمة (Petabytes) من خلال المعالجة الموزعة (Distributed Computing) والتوسع (Scaling).
  • مقارنة مع Pandas: بينما تعمل Pandas على جهاز واحد وتتقيد بالذاكرة العشوائية (RAM)، يقوم PySpark بتوزيع البيانات والعمليات على عنقود (Cluster) من الأجهزة.
  • المميزات الأساسية:
    • التسامح مع الأخطاء (Fault Tolerance): يستخدم مفهوم RDD (Resilient Distributed Datasets) لاسترجاع البيانات المفقودة تلقائياً عبر تتبع Lineage Graph للعمليات.
    • In-Memory Computing: يفضل إبقاء البي ... 
 ...  Read more
Keywords
data science علم البياناتاداوات علم البيانات