Note sull'episodio
تناقش الحلقة فكرة أن نجاح مشاريع علم البيانات لا يعتمد فقط على مهارة كتابة الكود (مثل Python وSQL)، بل على استخدام الأدوات المناسبة لتنظيم العمل وجعله قابلًا للتطوير (Scalable).الأدوات الثلاثة التي تم تسليط الضوء عليها هي:
- Polars (السرعة هي الملك):
- الوصف: مكتبة بُنيت بلغة Rust وتُعتبر "المستوى التالي" بعد Pandas، خاصةً عند التعامل مع مجموعات البيانات الكبيرة.
- الميزة الرئيسية: تعتمد على خاصية الـ Lazy Evaluation (التقييم الكسول)، مما يجعل تنفيذ الكود أسرع بكثير من Pandas من خلال إنشاء خطة تنفيذ ذكية (Execution Plan).
- الفوائد: التعامل مع الملفات الكبيرة (Multi-GBs)، كتابة كود أنظف وأسرع (Multithreading)، والعمل بكفاءة مع تحسين الاستعلامات (Query optimization).
- MLflow (وداعاً لعشوائية التجارب):
- الوصف ...
Parole chiave
data science علم البياناتاداوات علم البيانات