أدوات هتغير حياتك كعالم بيانات - 2- Tools That Will Transform the Way You Work as a Data Scientist-V2

Data Science بالعربي di Mohamed ElSayed

S01 E10

13:56

يدور موضوع الحلقة حول ثلاث أدوات "ثقيلة" ومتقدمة تهدف إلى إدارة البيانات الضخمة

(Big Data) وضمان جودتها: PySpark، وDVC، وGreat Expectations.1. PySpark (سيد البيانات الضخمة)

الغرض الرئيسي: معالجة البيانات الضخمة (Petabytes) من خلال المعالجة الموزعة (Distributed Computing) والتوسع (Scaling).
مقارنة مع Pandas: بينما تعمل Pandas على جهاز واحد وتتقيد بالذاكرة العشوائية (RAM)، يقوم PySpark بتوزيع البيانات والعمليات على عنقود (Cluster) من الأجهزة.
المميزات الأساسية:
- التسامح مع الأخطاء (Fault Tolerance): يستخدم مفهوم RDD (Resilient Distributed Datasets) لاسترجاع البيانات المفقودة تلقائياً عبر تتبع Lineage Graph للعمليات.
- In-Memory Computing: يفضل إبقاء البي ...

data science علم البياناتاداوات علم البيانات