منصة التحليلات الموحدة Databricks

الرئيسيةHome > منصة التحليلات الموحدة Databricks

السياق: مشكلة البيانات الضخمة

لماذا نحتاج إلى محرك جديد ونموذج برمجة لتحليلات البيانات في المقام الأول؟ كما هو الحال مع العديد من الاتجاهات في برمجة الكمبيوتر ، يرجع ذلك إلى التغيرات في الاتجاهات الاقتصادية التي تكمن وراء تطبيقات وأجهزة الكمبيوتر.

بالنسبة لمعظم تاريخها ، أصبحت أجهزة الكمبيوتر أسرع كل عام من خلال زيادة سرعة المعالج: يمكن للمعالجات الجديدة كل عام تشغيل المزيد من التعليمات في الثانية مقارنة بالعام الماضي نتيجة لذلك ، أصبحت التطبيقات أسرع تلقائيًا كل عام ، دون الحاجة إلى تغيير التعليمات البرمجية الخاصة بها. أدى هذا الاتجاه إلى بناء نظام إيكولوجي كبير وراسخ للتطبيقات بمرور الوقت ، وقد تم تصميم معظمها فقط للتشغيل على معالج واحد ، وركب اتجاه سرعات المعالج المحسنة لتوسيع نطاق العمليات الحسابية الأكبر أو أحجام البيانات الأكبر بمرور الوقت .

لسوء الحظ ، توقف هذا الاتجاه في الأجهزة حوالي عام 2005: نظرًا للقيود الصارمة في تبديد الحرارة ، توقف مطورو الأجهزة عن جعل المعالجات الفردية أسرع ، وتحولوا نحو إضافة المزيد من نوى وحدة المعالجة المركزية المتوازية التي تعمل جميعها بنفس السرعة. يعني هذا التغيير ، فجأة ، أن التطبيقات بحاجة إلى تعديل لإضافة التوازي من أجل العمل بشكل أسرع ، وقد بدأت بالفعل في تمهيد الطريق لنماذج برمجة جديدة مثل Apache Spark.

علاوة على ذلك ، لم تتباطأ تقنيات تخزين البيانات وجمعها بشكل ملحوظ في عام 2005 ، عندما تراجعت سرعات المعالج. تستمر تكلفة تخزين 1 تيرابايت من البيانات في الانخفاض بمعدل 2x تقريبًا كل 14 شهرًا ، مما يعني أنه من غير المكلف للغاية بالنسبة للمؤسسات من جميع الأحجام تخزين كميات كبيرة من البيانات. علاوة على ذلك ، فإن العديد من تقنيات جمع البيانات (أجهزة الاستشعار ، والكاميرات ، ومجموعات البيانات العامة ، إلخ) تستمر في الانخفاض في التكلفة وتحسين الدقة. على سبيل المثال ، تستمر تقنية الكاميرا في التحسن من حيث الدقة وانخفاض التكلفة لكل بكسل كل عام ، لدرجة أن كاميرا الويب بدقة 12 ميجابكسل تكلف فقط 3-4 دولارات أمريكية ؛ جعل هذا الأمر غير مكلف لجمع مجموعة واسعة من البيانات المرئية ، سواء من الأشخاص الذين يصورون الفيديو أو أجهزة الاستشعار الآلية في بيئة صناعية. علاوة على ذلك ، فإن الكاميرات هي نفسها المستشعرات الرئيسية في أجهزة جمع البيانات الأخرى ، مثل التلسكوبات وحتى آلات التسلسل الجيني ، مما يؤدي إلى انخفاض تكلفة هذه التقنيات أيضًا.

والنتيجة النهائية هي عالم يكون فيه جمع البيانات غير مكلف للغاية – قد تعتبر العديد من المؤسسات أنه من الإهمال عدم تسجيل البيانات ذات الصلة المحتملة بالأعمال – لكن معالجتها تتطلب حسابات كبيرة ومتوازية ، غالبًا على مجموعات من الأجهزة. علاوة على ذلك ، في هذا العالم الجديد ، لا يمكن للبرامج التي تم تطويرها في الخمسين عامًا الماضية توسيع نطاقها تلقائيًا ، ولا يمكن أيضًا لنماذج البرمجة التقليدية لتطبيقات معالجة البيانات ، مما يخلق الحاجة إلى نماذج برمجة جديدة. هذا هو العالم الذي تم إنشاء Apache Spark من أجله.

منصة التحليلات الموحدة Databricks

تسريع الابتكار من خلال توحيد علوم البيانات والهندسة والأعمال ، مع Databricks Unified Analytics Platform ، من المبدعين الأصليين لـ Apache Spark ™. تعامل مع جميع العمليات التحليلية – من ETL إلى تدريب النماذج ونشرها – مع الاستفادة من الأدوات واللغات والمهارات المألوفة ، عبر أجهزة الكمبيوتر المحمولة التفاعلية أو واجهات برمجة التطبيقات.

دفاتر الملاحظات المشتركة

شارك التعليمات البرمجية الخاصة بك بكل ثقة عبر أجهزة الكمبيوتر المحمولة مع سجل المراجعة وتكامل GitHub.

وظائف الإنتاج

قم بأتمتة خطوط أنابيب البيانات المعقدة من خلال جدولة وظائف مبسطة ومراقبتها وتصحيح الأخطاء.

تكامل النظام البيئي

اتصل بأدواتك المفضلة واستخدم ما تعرفه بالفعل بفضل منصة مفتوحة وقابلة للتوسيع.

databrcks

اتصل بنا

احصل على اتجاه

Irsheid Plaza, 2nd Floor, Office #5, Swieleh, Amman, Jordan

رقم الهاتف:

0776536949

البريد الإلكتروني:
تمرير للأعلى