
يُمكن أن يُساهم وجود بروتين في المكان الخطأ داخل الخلية في العديد من الأمراض، مثل مرض الزهايمر، وتليف الكيسي، والسرطان. ولكن هناك حوالي 70,000 بروتين ومتغيرات بروتينية مختلفة في خلية بشرية واحدة، وبما أن العلماء لا يستطيعون عادةً اختبار سوى عدد قليل في تجربة واحدة، فإن تحديد مواقع البروتينات يدوياً أمرٌ مكلفٌ للغاية ومُستهلكٌ للوقت.
يسعى جيل جديد من التقنيات الحسابية إلى تبسيط هذه العملية باستخدام نماذج التعلم الآلي التي غالباً ما تستفيد من مجموعات بيانات تحتوي على آلاف البروتينات ومواقعها، المُقاسة عبر العديد من خطوط الخلايا. واحدة من أكبر هذه المجموعات هي أطلس البروتين البشري (Human Protein Atlas)، الذي يُدوّن السلوك تحت الخلوي لأكثر من 13,000 بروتين في أكثر من 40 خط خلية. ولكن على الرغم من ضخامته، لم يستكشف أطلس البروتين البشري إلا حوالي 0.25% من جميع الأزواج المُمكنة لجميع البروتينات وخطوط الخلايا داخل قاعدة البيانات.
قام باحثون من معهد ماساتشوستس للتكنولوجيا (MIT)، وجامعة هارفارد، ومعهد براود التابع لـ MIT وهارفارد، بتطوير نهج حسابي جديد يمكنه استكشاف الفراغ غير المُستكشف بكفاءة. تستطيع طريقتهم التنبؤ بموقع أي بروتين في أي خط خلية بشري، حتى عندما لم يتم اختبار كل من البروتين والخلية من قبل.
تتجاوز تقنيتهم العديد من الطرق القائمة على الذكاء الاصطناعي من خلال تحديد موقع البروتين على مستوى الخلية الواحدة، بدلاً من تقدير مُتوسط عبر جميع خلايا نوع مُحدد. يمكن لهذا التحديد على مستوى الخلية الواحدة تحديد موقع البروتين في خلية سرطانية مُحددة بعد العلاج، على سبيل المثال.
جمع الباحثون نموذج لغة البروتين مع نوع خاص من نموذج رؤية الكمبيوتر لالتقاط تفاصيل غنية حول البروتين والخلية. في النهاية، يستلم المستخدم صورة خلية مع جزء مُميّز يُشير إلى تنبؤ النموذج بموقع البروتين. وبما أن تحديد موقع البروتين يُشير إلى حالته الوظيفية، فإن هذه التقنية قد تُساعد الباحثين والأطباء على تشخيص الأمراض أو تحديد أهداف الأدوية بكفاءة أكبر، كما تُمكّن علماء الأحياء من فهم أفضل لكيفية ارتباط العمليات البيولوجية المعقدة بتحديد موقع البروتين.
يقول ييتونغ تساو، طالب دراسات عليا في برنامج بيولوجيا الحسابات والأنظمة في MIT والمؤلف الرئيسي المشارك لورقة بحثية حول هذا البحث: “يمكنك إجراء تجارب تحديد موقع البروتين على جهاز كمبيوتر دون الحاجة إلى لمس أي طاولة مختبر، مما يُوفّر عليك شهوراً من الجهد. بينما ستظل بحاجة إلى التحقق من التنبؤ، يمكن لهذه التقنية أن تعمل كفحص أولي لما يجب اختباره تجريبياً”.
انضم إلى تساو في الورقة البحثية المؤلف الرئيسي المشارك شينيي زانغ، طالب دراسات عليا في قسم الهندسة الكهربائية وعلوم الكمبيوتر (EECS) و مركز إريك ووندي شميدت في معهد براود؛ ويونهاو باي من معهد براود؛ والمؤلفون البارزون فاي تشين، أستاذ مساعد في هارفارد وعضو في معهد براود، وكارولين أوهلر، أستاذة الهندسة في EECS ومعهد MIT لبيانات والأنظمة والمجتمع (IDSS)، وهي أيضاً مديرة مركز إريك ووندي شميدت وباحثة في مختبر MIT لأنظمة المعلومات والقرارات (LIDS). يظهر البحث اليوم في مجلة Nature Methods.
نماذج متعاونة
لا تستطيع العديد من نماذج التنبؤ بالبروتين الموجودة حاليًا إجراء تنبؤات بناءً على بيانات البروتين والخلية التي تم تدريبها عليها أو لا تستطيع تحديد موقع البروتين داخل خلية واحدة.
لتجاوز هذه القيود، أنشأ الباحثون طريقة من جزأين للتنبؤ بموقع البروتينات غير المرئية تحت الخلوية، وتُسمى PUPS.
يستخدم الجزء الأول نموذج تسلسل البروتين لالتقاط الخصائص المُحددة للموقع لبروتين وهيكله ثلاثي الأبعاد بناءً على سلسلة الأحماض الأمينية التي تُشكّله.
يُدمج الجزء الثاني نموذج إعادة رسم الصور، والذي يُصمّم لملء الأجزاء الناقصة من الصورة. ينظر نموذج رؤية الكمبيوتر هذا إلى ثلاث صور مُلوّنة لخلية لجمع المعلومات حول حالة تلك الخلية، مثل نوعها، وميزاتها الفردية، وما إذا كانت مُتعبة.
يُدمج PUPS التمثيلات التي أنشأها كل نموذج للتنبؤ بموقع البروتين داخل خلية واحدة، باستخدام مُشفّر صورة لإخراج صورة مُميّزة تُظهر الموقع المُتنبأ به.
يقول تساو: “تُظهر الخلايا المختلفة داخل خط الخلية خصائص مختلفة، ويمتلك نموذجنا القدرة على فهم هذا الدقيق”.
يُدخل المستخدم تسلسل الأحماض الأمينية التي تُشكّل البروتين وثلاث صور لتلوين الخلايا، واحدة للنواة، واحدة للميكروتوبيول، واحدة للشبكة الإندوبلازمية. ثم يقوم PUPS بالباقي.
فهم أعمق
استخدم الباحثون بعض الحيل خلال عملية التدريب لتعليم PUPS كيفية دمج المعلومات من كل نموذج بطريقة تُمكنه من إجراء تخمين مُستنير حول موقع البروتين، حتى لو لم ير هذا البروتين من قبل.
على سبيل المثال، يُعيّنون النموذج مهمة ثانوية خلال التدريب: تسمية حجرة التوطين صراحةً، مثل نواة الخلية. يتم ذلك جنباً إلى جنب مع مهمة إعادة الرسم الرئيسية لمساعدة النموذج على التعلم بشكل أكثر فعالية.
قد يكون التشبيه الجيد هو مُعلّم يُطلب من طلابه رسم جميع أجزاء زهرة بالإضافة إلى كتابة أسمائها. وُجِدَ أن هذه الخطوة الإضافية تُساعد النموذج على تحسين فهمه العام للحجرات الخلوية المُمكنة.
بالإضافة إلى ذلك، حقيقة أن PUPS مُدرّب على البروتينات وخطوط الخلايا في نفس الوقت تُساعده على تطوير فهم أعمق لمكان ميل البروتينات إلى التوطين في صورة خلية.
يمكن لـ PUPS حتى أن يفهم، بمفرده، كيف تُساهم أجزاء مختلفة من تسلسل البروتين بشكلٍ منفصل في توطينه العام.
تقول زانغ: “عادةً ما تتطلب معظم الطرق الأخرى أن يكون لديك تلوين للبروتين أولاً، لذا فأنت قد رأيته بالفعل في بيانات التدريب الخاصة بك. نهجنا فريد من نوعه لأنه يمكنه التعميم عبر البروتينات وخطوط الخلايا في نفس الوقت”.
لأن PUPS يمكنه التعميم على البروتينات غير المرئية، فيمكنه التقاط التغيرات في التوطين التي تُسبّبها طفرات بروتينية فريدة غير مُدرجة في أطلس البروتين البشري.
تحقّق الباحثون من أن PUPS يمكنه التنبؤ بموقع البروتينات الجديدة تحت الخلوية في خطوط الخلايا غير المرئية من خلال إجراء تجارب مخبرية ومقارنة النتائج. بالإضافة إلى ذلك، عند مقارنته بطريقة ذكاء اصطناعي أساسية، أظهر PUPS متوسطاً أقل من خطأ التنبؤ عبر البروتينات التي اختبروها.
في المستقبل، يريد الباحثون تحسين PUPS حتى يتمكن النموذج من فهم تفاعلات البروتين مع البروتين وإجراء تنبؤات توطين للعديد من البروتينات داخل خلية. على المدى الطويل، يريدون تمكين PUPS من إجراء تنبؤات من حيث الأنسجة البشرية الحية، بدلاً من الخلايا المُزرعة.
يُموّل هذا البحث مركز إريك ووندي شميدت في معهد براود، والمعاهد الوطنية للصحة، والمؤسسة الوطنية للعلوم، وصندوق بوروز ويلكوم، ومؤسسة سيرل سكولارز، ومعهد هارفارد للخلايا الجذعية، ومعهد ميركين، ومكتب أبحاث البحرية، ووزارة الطاقة.
هذا المحتوى تم باستخدام أدوات الذكاء الاصطناعي.