تتطلب الطفرة الأخيرة في الذكاء الاصطناعي التوليدي دعم النماذج فائقة الضخامة، وتحتاج النماذج الكبيرة إلى التدريب باستخدام البيانات الضخمة، وبالتالي تصبح البيانات أكثر قيمة.
يعتقد الباحثون أن الطلب على البيانات سيزداد بشكل كبير، وقد يتم استنفاد البيانات النصية عالية الجودة التي يمكن استخدامها لتدريب النماذج الكبيرة في عام 2026. يبدأ تدافع البيانات.
في الولايات المتحدة، كانت هناك العديد من قضايا انتهاك حقوق الطبع والنشر ضد منشئي النماذج، وأصبح كل من OpenAI وStable AI وMidjourney وMeta متهمين.
تستكشف شركات الذكاء الاصطناعي مصادر جديدة للبيانات، بما في ذلك توقيع اتفاقيات حقوق الطبع والنشر للبيانات مع شركات أخرى، وجمع البيانات من خلال تفاعلات المستخدم مع أدواتها، ومحاولة استخدام البيانات الداخلية من عملاء الشركات.
مصدر الصورة: تم إنشاؤها بواسطة Unbounded AI
منذ وقت ليس ببعيد، كان المحللون يتكهنون علناً بما إذا كان الذكاء الاصطناعي (AI) سيؤدي إلى سقوط شركة Adobe، وهي شركة مطورة لبرامج المبدعين. يبدو أن الأدوات الجديدة مثل Dall-E 2 وMidTrik، التي تولد الصور بناءً على نص سريع، تجعل قدرات Adobe في تحرير الصور زائدة عن الحاجة. في شهر أبريل من هذا العام فقط، نشر موقع الأخبار المالية Seeking Alpha أيضًا مقالًا بعنوان "هل سيكون الذكاء الاصطناعي هو برنامج Adobe Killer؟"
لكن في الواقع فإن الحقائق بعيدة كل البعد عن افتراضات المحللين. استخدمت Adobe قاعدة بياناتها التي تضم مئات الملايين من الصور المخزنة لإنشاء مجموعتها الخاصة من أدوات الذكاء الاصطناعي التي تسمى Firefly. وقالت دانا راو، المديرة التنفيذية للشركة، إنه تم استخدام Firefly لإنشاء أكثر من مليار صورة منذ إطلاقه في مارس/آذار. من خلال تجنب التنقيب في الإنترنت عن صور مثل منافسيها، تتجنب Adobe نزاعات حقوق الطبع والنشر العميقة التي تعاني منها الصناعة حاليًا. ارتفع سهم Adobe بنسبة 36 بالمائة منذ إطلاق Firefly.
بدأت عملية خلط البيانات
يسلط انتصار شركة Adobe على ما يسمى بـ "Doomslayer" الضوء على الآثار الأوسع للسباق على الهيمنة في سوق أدوات الذكاء الاصطناعي سريع النمو. تعتمد النماذج الضخمة للغاية التي تشغل أحدث موجة مما يسمى "الذكاء الاصطناعي التوليدي" على كميات هائلة من البيانات. في السابق، كان منشئو النماذج يقومون في الغالب بجمع البيانات (غالبًا بدون إذن) من الإنترنت. والآن، يجدون مصادر جديدة للبيانات لدعم نظام التدريب المحموم هذا. وفي الوقت نفسه، تدرس الشركات التي تمتلك كميات هائلة من البيانات الجديدة أفضل السبل للاستفادة منها. يبدأ تدافع البيانات.
العنصران الأساسيان لنموذج الذكاء الاصطناعي هما مجموعات البيانات وقوة المعالجة، ويتم تدريب النظام على مجموعات البيانات، ويكتشف النموذج العلاقة بين الداخلية والخارجية لمجموعات البيانات هذه من خلال قوة المعالجة. بطريقة ما، هذين الأساسيين قابلان للتبادل: يمكن تحسين النموذج من خلال استيعاب المزيد من البيانات أو إضافة المزيد من قوة المعالجة. ومع ذلك، فإن هذا الأخير أصبح صعبا على نحو متزايد وسط نقص في رقائق الذكاء الاصطناعي المتخصصة، مما دفع صانعي النماذج إلى مضاعفة جهودهم للعثور على البيانات.
تعتقد شركة الأبحاث Epoch AI أن الطلب على البيانات سيزداد بشكل كبير لدرجة أن النص عالي الجودة المتاح للتدريب قد يتم استنفاده بحلول عام 2026. يُذكر أن أحدث نماذج الذكاء الاصطناعي لشركتي التكنولوجيا العملاقة جوجل وميتا، قد تم تدريبها على أكثر من تريليون كلمة. وبالمقارنة، يبلغ إجمالي عدد الكلمات الإنجليزية في موسوعة ويكيبيديا الإلكترونية حوالي 4 مليارات كلمة.
ليس فقط حجم مجموعة البيانات هو المهم. كلما كانت البيانات أفضل، كان أداء النماذج المدربة عليها أفضل. يشير راسل كابلان، من شركة Scale AI الناشئة للبيانات، إلى أن النماذج المستندة إلى النصوص يتم تدريبها بشكل مثالي على الأعمال الطويلة والمكتوبة بشكل جيد والدقيقة من الناحية الواقعية. من المرجح أن تنتج النماذج التي تغذي هذه المعلومات مخرجات مماثلة عالية الجودة.
وبالمثل، تقدم روبوتات الدردشة المدعمة بالذكاء الاصطناعي إجابات أفضل عندما يُطلب منها شرح عملها خطوة بخطوة، مما يزيد من الحاجة إلى الموارد مثل الكتب المدرسية. كما تصبح مجموعات المعلومات المخصصة أكثر قيمة، لأنها تسمح "بضبط النماذج" لتناسب المزيد من التطبيقات المتخصصة. استخدمت Microsoft، التي استحوذت على مستودع أكواد البرمجيات GitHub في عام 2018 مقابل 7.5 مليار دولار، لتطوير أداة ذكاء اصطناعي لكتابة التعليمات البرمجية.
ارتفاع الدعاوى القضائية المتعلقة بحقوق الطبع والنشر للبيانات، وشركات الذكاء الاصطناعي مشغولة بتوقيع اتفاقيات الترخيص
ومع تزايد الطلب على البيانات، أصبح الوصول إلى فجوات البيانات أمرا صعبا على نحو متزايد، ويطالب منشئو المحتوى الآن بالتعويض عن المواد التي استوعبتها نماذج الذكاء الاصطناعي. كانت هناك العديد من قضايا انتهاك حقوق الطبع والنشر المرفوعة ضد صانعي النماذج في الولايات المتحدة. قامت مجموعة من الكتاب، بما في ذلك الممثلة الكوميدية سارة سيلفرمان، بمقاضاة شركة OpenAI، مطور برنامج الدردشة الآلي للذكاء الاصطناعي ChatGPT، والشركة الأم لفيسبوك Meta. بالإضافة إلى ذلك، رفعت مجموعة من الفنانين دعوى قضائية بالمثل ضد Stability AI وMidjourney، وهما شركتان تعملان على أدوات تحويل النص إلى صورة.
والنتيجة لكل هذا هي موجة من الصفقات حيث تتسابق شركات الذكاء الاصطناعي للحصول على مصادر البيانات. وفي يوليو/تموز، وقعت شركة OpenAI صفقة مع وكالة Associated Press للوصول إلى أرشيف أخبار الوكالة. وفي الآونة الأخيرة، قامت الشركة أيضًا بتوسيع صفقتها مع مزود مكتبة الصور Shutterstock، والذي أبرمت Meta أيضًا صفقة معه.
في وقت سابق من شهر أغسطس، ظهرت تقارير تفيد بأن جوجل تجري محادثات مع شركة التسجيلات Universal Music لترخيص أصوات الفنانين للمساعدة في تطوير أدوات الذكاء الاصطناعي لكتابة الأغاني. وقالت شركة فيديليتي لإدارة الأصول إن عددًا من شركات التكنولوجيا اتصلت بالشركة لطلب الوصول إلى بياناتها المالية. تقول الشائعات أن مختبر الذكاء الاصطناعي يتواصل مع هيئة الإذاعة البريطانية (BBC) للحصول على أرشيف الصور والأفلام. هدف آخر مثير للاهتمام هو JSTOR، وهي مكتبة رقمية للمجلات العلمية.
ويستفيد أصحاب المعلومات هؤلاء من قدرتهم التفاوضية الأكبر. وقد أدى كل من منتدى Reddit، وموقع Stack Overflow، وهو موقع للأسئلة والأجوبة يحظى بشعبية لدى المبرمجين، إلى رفع تكلفة الوصول إلى بياناتهم. يتمتع كلا الموقعين بأهمية خاصة لأن المستخدمين "يعجبون" بالإجابات، مما يساعد النموذج في معرفة أي منها أكثر صلة بالموضوع. اتخذ موقع التواصل الاجتماعي X (تويتر سابقًا) خطوات للحد من قدرة الروبوتات على استخراج المعلومات من الموقع، والآن سيتعين على أي شخص يريد الوصول إلى بياناته أن يدفع. يخطط Elon Musk، رئيس شركة X، لاستخدام البيانات لبناء أعماله الخاصة في مجال الذكاء الاصطناعي.
ولذلك، يعمل منشئو النماذج على تحسين جودة البيانات الموجودة لديهم بالفعل. تستخدم العديد من مختبرات الذكاء الاصطناعي جيوشًا من معلقي البيانات لأداء مهام مثل تصنيف الصور وتقييم الإجابات. بعض هذه الوظائف معقدة للغاية لدرجة أنها تتطلب مرشحًا للماجستير أو الدكتوراه مع تخصص في علوم الحياة. لكن أغلب هذه الوظائف عادية ويتم الاستعانة بمصادر خارجية للعمالة الرخيصة في دول مثل كينيا.
تقوم شركات الذكاء الاصطناعي أيضًا بجمع البيانات من خلال تفاعلات المستخدم مع أدواتها. العديد من هذه الأدوات لديها شكل من أشكال آلية التغذية الراجعة، حيث يشير المستخدم إلى المخرجات التي كانت مفيدة. يتيح منشئ تحويل النص إلى صورة في Firefly للمستخدمين الاختيار من بين أربعة خيارات. ويقدم برنامج الدردشة الآلي Bard من Google أيضًا ثلاث إجابات.
يمكن للمستخدمين منح ChatGPT إعجابًا عندما يرد على استعلام. ويمكن تغذية هذه المعلومات كمدخلات في النماذج الأساسية، مما يشكل ما يسميه دوي كييلا، المؤسس المشارك لشركة كونكتشوال إيه آي الناشئة، "دولاب الموازنة للبيانات". وأضاف أن الإشارة الأقوى لجودة إجابات برنامج الدردشة الآلية هي ما إذا كان المستخدمون يقومون بنسخ النص ولصقه في مكان آخر. يساعد تحليل هذه المعلومات Google على تحسين أدوات الترجمة الخاصة بها بسرعة.
استكشف مجالات جديدة، وستصبح البيانات الداخلية لعملاء المؤسسات معجنات حلوة
ومع ذلك، هناك مصدر واحد للبيانات لا يزال غير مستغل إلى حد كبير: المعلومات الموجودة لدى عملاء شركات التكنولوجيا. تمتلك العديد من الشركات دون قصد ثروة من البيانات المفيدة، بدءًا من سجلات مركز الاتصال وحتى سجلات إنفاق العملاء. تعتبر هذه المعلومات ذات قيمة خاصة لأنها يمكن أن تساعد في تحسين النماذج لأغراض تجارية محددة، مثل مساعدة العاملين في مركز الاتصال على الإجابة على أسئلة العملاء أو مساعدة محللي الأعمال في العثور على طرق لتعزيز المبيعات.
ومع ذلك، فإن الاستفادة من هذا المورد الوفير ليس بالأمر السهل. ويشير روي سينغ، المحلل في شركة Bain & Company الاستشارية، إلى أنه تاريخيا، لا تولي معظم الشركات اهتماما كبيرا لمجموعات البيانات الضخمة ولكن غير المنظمة التي من شأنها أن تكون مفيدة للغاية لتدريب أدوات الذكاء الاصطناعي. غالبًا ما تنتشر هذه البيانات عبر أنظمة متعددة ويتم إخفاؤها على خوادم الشركة وليس في السحابة.
إن فتح هذه المعلومات سيساعد الشركات على تصميم أدوات الذكاء الاصطناعي لتلبية احتياجاتها الخاصة بشكل أفضل. يقدم كل من عملاقي التكنولوجيا، أمازون ومايكروسوفت، الآن أدوات لمساعدة الشركات الأخرى على إدارة مجموعات البيانات غير المنظمة بشكل أفضل، كما تفعل جوجل. وقال كريستيان كلاينرمان، من شركة قواعد البيانات Snowflake، إن هذا المجال يزدهر حيث يتطلع العملاء إلى "كسر صوامع البيانات".
وتتدفق الشركات الناشئة أيضًا إلى هذا المجال الجديد. في أبريل من هذا العام، قامت شركة Weaviate، وهي شركة قواعد بيانات تركز على الذكاء الاصطناعي، بجمع 50 مليون دولار بقيمة 200 مليون دولار. وبعد أسبوع واحد فقط، جمعت شركة PineCone المنافسة 100 مليون دولار بتقييم قدره 750 مليون دولار. وفي وقت سابق من هذا الشهر، قامت شركة قاعدة بيانات أخرى، Neon، بجمع 46 مليون دولار أيضًا. من الواضح أن التدافع للحصول على البيانات قد بدأ للتو.
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
الذكاء الاصطناعي سوف يكون عالقا؟ قد يتم استنفاد البيانات الخاصة بتدريب النماذج الكبيرة بحلول عام 2026
المصدر: "تينسنت تكنولوجي"، المؤلف: جينلو
قم بالتركيز على:
منذ وقت ليس ببعيد، كان المحللون يتكهنون علناً بما إذا كان الذكاء الاصطناعي (AI) سيؤدي إلى سقوط شركة Adobe، وهي شركة مطورة لبرامج المبدعين. يبدو أن الأدوات الجديدة مثل Dall-E 2 وMidTrik، التي تولد الصور بناءً على نص سريع، تجعل قدرات Adobe في تحرير الصور زائدة عن الحاجة. في شهر أبريل من هذا العام فقط، نشر موقع الأخبار المالية Seeking Alpha أيضًا مقالًا بعنوان "هل سيكون الذكاء الاصطناعي هو برنامج Adobe Killer؟"
لكن في الواقع فإن الحقائق بعيدة كل البعد عن افتراضات المحللين. استخدمت Adobe قاعدة بياناتها التي تضم مئات الملايين من الصور المخزنة لإنشاء مجموعتها الخاصة من أدوات الذكاء الاصطناعي التي تسمى Firefly. وقالت دانا راو، المديرة التنفيذية للشركة، إنه تم استخدام Firefly لإنشاء أكثر من مليار صورة منذ إطلاقه في مارس/آذار. من خلال تجنب التنقيب في الإنترنت عن صور مثل منافسيها، تتجنب Adobe نزاعات حقوق الطبع والنشر العميقة التي تعاني منها الصناعة حاليًا. ارتفع سهم Adobe بنسبة 36 بالمائة منذ إطلاق Firefly.
بدأت عملية خلط البيانات
يسلط انتصار شركة Adobe على ما يسمى بـ "Doomslayer" الضوء على الآثار الأوسع للسباق على الهيمنة في سوق أدوات الذكاء الاصطناعي سريع النمو. تعتمد النماذج الضخمة للغاية التي تشغل أحدث موجة مما يسمى "الذكاء الاصطناعي التوليدي" على كميات هائلة من البيانات. في السابق، كان منشئو النماذج يقومون في الغالب بجمع البيانات (غالبًا بدون إذن) من الإنترنت. والآن، يجدون مصادر جديدة للبيانات لدعم نظام التدريب المحموم هذا. وفي الوقت نفسه، تدرس الشركات التي تمتلك كميات هائلة من البيانات الجديدة أفضل السبل للاستفادة منها. يبدأ تدافع البيانات.
العنصران الأساسيان لنموذج الذكاء الاصطناعي هما مجموعات البيانات وقوة المعالجة، ويتم تدريب النظام على مجموعات البيانات، ويكتشف النموذج العلاقة بين الداخلية والخارجية لمجموعات البيانات هذه من خلال قوة المعالجة. بطريقة ما، هذين الأساسيين قابلان للتبادل: يمكن تحسين النموذج من خلال استيعاب المزيد من البيانات أو إضافة المزيد من قوة المعالجة. ومع ذلك، فإن هذا الأخير أصبح صعبا على نحو متزايد وسط نقص في رقائق الذكاء الاصطناعي المتخصصة، مما دفع صانعي النماذج إلى مضاعفة جهودهم للعثور على البيانات.
تعتقد شركة الأبحاث Epoch AI أن الطلب على البيانات سيزداد بشكل كبير لدرجة أن النص عالي الجودة المتاح للتدريب قد يتم استنفاده بحلول عام 2026. يُذكر أن أحدث نماذج الذكاء الاصطناعي لشركتي التكنولوجيا العملاقة جوجل وميتا، قد تم تدريبها على أكثر من تريليون كلمة. وبالمقارنة، يبلغ إجمالي عدد الكلمات الإنجليزية في موسوعة ويكيبيديا الإلكترونية حوالي 4 مليارات كلمة.
ليس فقط حجم مجموعة البيانات هو المهم. كلما كانت البيانات أفضل، كان أداء النماذج المدربة عليها أفضل. يشير راسل كابلان، من شركة Scale AI الناشئة للبيانات، إلى أن النماذج المستندة إلى النصوص يتم تدريبها بشكل مثالي على الأعمال الطويلة والمكتوبة بشكل جيد والدقيقة من الناحية الواقعية. من المرجح أن تنتج النماذج التي تغذي هذه المعلومات مخرجات مماثلة عالية الجودة.
وبالمثل، تقدم روبوتات الدردشة المدعمة بالذكاء الاصطناعي إجابات أفضل عندما يُطلب منها شرح عملها خطوة بخطوة، مما يزيد من الحاجة إلى الموارد مثل الكتب المدرسية. كما تصبح مجموعات المعلومات المخصصة أكثر قيمة، لأنها تسمح "بضبط النماذج" لتناسب المزيد من التطبيقات المتخصصة. استخدمت Microsoft، التي استحوذت على مستودع أكواد البرمجيات GitHub في عام 2018 مقابل 7.5 مليار دولار، لتطوير أداة ذكاء اصطناعي لكتابة التعليمات البرمجية.
ارتفاع الدعاوى القضائية المتعلقة بحقوق الطبع والنشر للبيانات، وشركات الذكاء الاصطناعي مشغولة بتوقيع اتفاقيات الترخيص
ومع تزايد الطلب على البيانات، أصبح الوصول إلى فجوات البيانات أمرا صعبا على نحو متزايد، ويطالب منشئو المحتوى الآن بالتعويض عن المواد التي استوعبتها نماذج الذكاء الاصطناعي. كانت هناك العديد من قضايا انتهاك حقوق الطبع والنشر المرفوعة ضد صانعي النماذج في الولايات المتحدة. قامت مجموعة من الكتاب، بما في ذلك الممثلة الكوميدية سارة سيلفرمان، بمقاضاة شركة OpenAI، مطور برنامج الدردشة الآلي للذكاء الاصطناعي ChatGPT، والشركة الأم لفيسبوك Meta. بالإضافة إلى ذلك، رفعت مجموعة من الفنانين دعوى قضائية بالمثل ضد Stability AI وMidjourney، وهما شركتان تعملان على أدوات تحويل النص إلى صورة.
والنتيجة لكل هذا هي موجة من الصفقات حيث تتسابق شركات الذكاء الاصطناعي للحصول على مصادر البيانات. وفي يوليو/تموز، وقعت شركة OpenAI صفقة مع وكالة Associated Press للوصول إلى أرشيف أخبار الوكالة. وفي الآونة الأخيرة، قامت الشركة أيضًا بتوسيع صفقتها مع مزود مكتبة الصور Shutterstock، والذي أبرمت Meta أيضًا صفقة معه.
في وقت سابق من شهر أغسطس، ظهرت تقارير تفيد بأن جوجل تجري محادثات مع شركة التسجيلات Universal Music لترخيص أصوات الفنانين للمساعدة في تطوير أدوات الذكاء الاصطناعي لكتابة الأغاني. وقالت شركة فيديليتي لإدارة الأصول إن عددًا من شركات التكنولوجيا اتصلت بالشركة لطلب الوصول إلى بياناتها المالية. تقول الشائعات أن مختبر الذكاء الاصطناعي يتواصل مع هيئة الإذاعة البريطانية (BBC) للحصول على أرشيف الصور والأفلام. هدف آخر مثير للاهتمام هو JSTOR، وهي مكتبة رقمية للمجلات العلمية.
ويستفيد أصحاب المعلومات هؤلاء من قدرتهم التفاوضية الأكبر. وقد أدى كل من منتدى Reddit، وموقع Stack Overflow، وهو موقع للأسئلة والأجوبة يحظى بشعبية لدى المبرمجين، إلى رفع تكلفة الوصول إلى بياناتهم. يتمتع كلا الموقعين بأهمية خاصة لأن المستخدمين "يعجبون" بالإجابات، مما يساعد النموذج في معرفة أي منها أكثر صلة بالموضوع. اتخذ موقع التواصل الاجتماعي X (تويتر سابقًا) خطوات للحد من قدرة الروبوتات على استخراج المعلومات من الموقع، والآن سيتعين على أي شخص يريد الوصول إلى بياناته أن يدفع. يخطط Elon Musk، رئيس شركة X، لاستخدام البيانات لبناء أعماله الخاصة في مجال الذكاء الاصطناعي.
ولذلك، يعمل منشئو النماذج على تحسين جودة البيانات الموجودة لديهم بالفعل. تستخدم العديد من مختبرات الذكاء الاصطناعي جيوشًا من معلقي البيانات لأداء مهام مثل تصنيف الصور وتقييم الإجابات. بعض هذه الوظائف معقدة للغاية لدرجة أنها تتطلب مرشحًا للماجستير أو الدكتوراه مع تخصص في علوم الحياة. لكن أغلب هذه الوظائف عادية ويتم الاستعانة بمصادر خارجية للعمالة الرخيصة في دول مثل كينيا.
تقوم شركات الذكاء الاصطناعي أيضًا بجمع البيانات من خلال تفاعلات المستخدم مع أدواتها. العديد من هذه الأدوات لديها شكل من أشكال آلية التغذية الراجعة، حيث يشير المستخدم إلى المخرجات التي كانت مفيدة. يتيح منشئ تحويل النص إلى صورة في Firefly للمستخدمين الاختيار من بين أربعة خيارات. ويقدم برنامج الدردشة الآلي Bard من Google أيضًا ثلاث إجابات.
يمكن للمستخدمين منح ChatGPT إعجابًا عندما يرد على استعلام. ويمكن تغذية هذه المعلومات كمدخلات في النماذج الأساسية، مما يشكل ما يسميه دوي كييلا، المؤسس المشارك لشركة كونكتشوال إيه آي الناشئة، "دولاب الموازنة للبيانات". وأضاف أن الإشارة الأقوى لجودة إجابات برنامج الدردشة الآلية هي ما إذا كان المستخدمون يقومون بنسخ النص ولصقه في مكان آخر. يساعد تحليل هذه المعلومات Google على تحسين أدوات الترجمة الخاصة بها بسرعة.
استكشف مجالات جديدة، وستصبح البيانات الداخلية لعملاء المؤسسات معجنات حلوة
ومع ذلك، هناك مصدر واحد للبيانات لا يزال غير مستغل إلى حد كبير: المعلومات الموجودة لدى عملاء شركات التكنولوجيا. تمتلك العديد من الشركات دون قصد ثروة من البيانات المفيدة، بدءًا من سجلات مركز الاتصال وحتى سجلات إنفاق العملاء. تعتبر هذه المعلومات ذات قيمة خاصة لأنها يمكن أن تساعد في تحسين النماذج لأغراض تجارية محددة، مثل مساعدة العاملين في مركز الاتصال على الإجابة على أسئلة العملاء أو مساعدة محللي الأعمال في العثور على طرق لتعزيز المبيعات.
ومع ذلك، فإن الاستفادة من هذا المورد الوفير ليس بالأمر السهل. ويشير روي سينغ، المحلل في شركة Bain & Company الاستشارية، إلى أنه تاريخيا، لا تولي معظم الشركات اهتماما كبيرا لمجموعات البيانات الضخمة ولكن غير المنظمة التي من شأنها أن تكون مفيدة للغاية لتدريب أدوات الذكاء الاصطناعي. غالبًا ما تنتشر هذه البيانات عبر أنظمة متعددة ويتم إخفاؤها على خوادم الشركة وليس في السحابة.
إن فتح هذه المعلومات سيساعد الشركات على تصميم أدوات الذكاء الاصطناعي لتلبية احتياجاتها الخاصة بشكل أفضل. يقدم كل من عملاقي التكنولوجيا، أمازون ومايكروسوفت، الآن أدوات لمساعدة الشركات الأخرى على إدارة مجموعات البيانات غير المنظمة بشكل أفضل، كما تفعل جوجل. وقال كريستيان كلاينرمان، من شركة قواعد البيانات Snowflake، إن هذا المجال يزدهر حيث يتطلع العملاء إلى "كسر صوامع البيانات".
وتتدفق الشركات الناشئة أيضًا إلى هذا المجال الجديد. في أبريل من هذا العام، قامت شركة Weaviate، وهي شركة قواعد بيانات تركز على الذكاء الاصطناعي، بجمع 50 مليون دولار بقيمة 200 مليون دولار. وبعد أسبوع واحد فقط، جمعت شركة PineCone المنافسة 100 مليون دولار بتقييم قدره 750 مليون دولار. وفي وقت سابق من هذا الشهر، قامت شركة قاعدة بيانات أخرى، Neon، بجمع 46 مليون دولار أيضًا. من الواضح أن التدافع للحصول على البيانات قد بدأ للتو.