“أخطر عمليات الإحتيال”.. اليكم أساليب استنساخ الصوت بواسطة الذكاء الاصطناعي
استنساخ الصوت هو عملية استخدام التكنولوجيا، وخاصة تقنيات الذكاء الاصطناعي، لتقليد صوت شخص ما بدقة وواقعية. في هذه العملية، يتم تحليل صوت الشخص المستهدف وتوليد نموذج رقمي لخصائص صوته، ثم يتم استخدام هذا النموذج لإعادة إنتاج الصوت بشكل مطابق أو مشابه. يمكن استخدام استنساخ الصوت لأغراض متنوعة، بما في ذلك التلاعب بالمحادثات أو الإيهام بتواجد شخص معين أو حتى للقيام بعمليات احتيالية.
في الأشهر الأخيرة، ظهر نوع جديد من التزييف العميق يُعرف بـ “استنساخ الصوت”، حيث يستخدم الهاكرز الذكاء الاصطناعي لتقليد أصوات الأشخاص الآخرين. لقد تم بالفعل استنساخ أصوات مشاهير مثل ستيفن فراي، صادق خان، وجو بايدن، وكلهم كانوا ضحايا لجرائم تقليد أصواتهم في تصريحات قد تسببت لهم بالحرج أو الإزعاج. بالإضافة إلى ذلك، تم خداع أحد المديرين التنفيذيين – ولم يتم ذكر اسمه – لتحويل مبلغ مالي يصل إلى 243 ألف دولار إلى محتال بعد استلامه مكالمة هاتفية مزيفة، وفقًا لتقرير نشرته “ديلي ميل” البريطانية.
مدى الإقناع
يقول مهندس الحلول الإلكترونية دين شيريتس، في تصرح لـ”ديلي ميل”، إنه لمعرفة كيف تمكن هاكر محترف “باستنساخ صوته” كانت “النتائج مرعبة”، شارحًا أن استنساخ الصوت هو تقنية ذكاء اصطناعي تسمح للهاكرز بأخذ تسجيل صوتي لشخص ما، وتدريب أداة الذكاء الاصطناعي على صوته، وإعادة إنشائه. إن تلك التقنية تم ابتكارها بالأساس لمساعدة “الأشخاص الذين فقدوا أصواتهم لأسباب طبية، ولكن يتم حاليًا استخدامها بشكل متزايد من قبل صناع السينما في هوليوود، وللأسف المحتالين والهاكرز”.
أكثر سهولة وبأسعار معقولة
يضيف شيريتس أنه عندما ظهرت التكنولوجيا لأول مرة في أواخر التسعينيات، كان استخدامها يقتصر على الخبراء ذوي المعرفة المتعمقة بالذكاء الاصطناعي. وبمرور الوقت، أصبحت التكنولوجيا أكثر سهولة وبأسعار معقولة، لدرجة أنه يمكن لأي شخص تقريبًا استخدامها، بل إنه “يمكن لأي شخص لديه خبرة محدودة للغاية استنساخ الصوت. وربما يستغرق الأمر أقل من خمس دقائق باستخدام بعض الأدوات المتوفرة المجانية والمفتوحة المصدر”.
شرح شيريتس أنه لاستنساخ صوته الشخصي، فإن كل ما أحتاج إليه هو مقطع فيديو مدته خمس دقائق وهو يتحدث، موضحًا أن معظم الهاكرز يمكنهم ببساطة سرقة الصوت من مكالمة هاتفية سريعة، أو حتى من مقطع فيديو منشور على وسائل التواصل الاجتماعي.
سيناريو احتيال مقنع
بعد ذلك، عبّر شيريتس عن قلقه البالغ بشأن الوضع، حيث أشار إلى أن التطورات الحالية في التكنولوجيا تمكّن الأفراد من إضافة المزيد من التفاصيل الواقعية إلى التلاعب بالصوت، مما يجعلها أكثر إقناعًا في سيناريوهات الاحتيال بشكل مذهل.
وأوضح أن الروبوت قادر بشكل مدهش على تقليد لهجة شيريتس الأمريكية الأسكتلندية بدقة تامة، حيث قال: “مرحبًا، أمي، أنا شيفالي. لقد فقدت بطاقتي المصرفية وأحتاج إلى تحويل بعض الأموال. هل يمكنك إرسال بعضها إلى الحساب الذي تلقيت رسالة نصية منه للتو؟”.
وأشار شيريتس إلى أن مستوى الرعب ارتفع قليلاً في المقطع التالي، حيث قام بإضافة توقفات مؤقتة، موضحًا أن “توقفًا طويلًا يليه نفس طويل، وهذا يجعل الأمر يبدو أكثر طبيعية بكثير”.فدية بملايين الدولارات
وقال شيريتس: “لقد تلقى بعض الأشخاص مكالمات وهمية بشأن الاختطاف، حيث اتصل بهم “طفلهم” قائلاً: “لقد تم اختطافي، أحتاج إلى ملايين الدولارات وإلا فلن يطلقوا سراحي”، ويبدو الطفل حزينًا للغاية”.
“ما نشهده اليوم، على نحو متزايد، هو أن الناس يحاولون القيام بمحاولات هندسة اجتماعية أكثر استهدافًا ضد الشركات والمنظمات، مشيرًا في إطار نفس التجارب قام باستخدام نفس التقنية لاستنساخ صوت مديره التنفيذي، حيث غالبًا ما يظهر الرؤساء التنفيذيون علنًا، لذلك من السهل جدًا الحصول على صوت عالي الجودة لأصواتهم واستنساخه”، لذا يتعين على الشركات والمنظمات أن تكون على دراية بهذا الخطر.
علامات رئيسية لكشف الزيف
ولحسن الحظ، يقول شيريتس إن هناك العديد من العلامات الرئيسية التي تشير إلى أن الصوت مستنسخ، من بينها أن هناك فترات توقف مؤقتة، والقضايا التي لا يبدو فيها الأمر طبيعيًا، وربما يكون هناك ما يمكن تسميته “المصنوعات اليدوية” في الخلفية. على سبيل المثال، إذا تم استنساخ صوت في غرفة مزدحمة وكان هناك الكثير من الأشخاص الآخرين يتحدثون، فعند استخدام هذا النسخ الصوتي، ستسمع بعض الأشياء غير المرغوب فيها في الخلفية”.
ويدق شيريتس ناقوس الخطر قائلًا إنه مع استمرار تطور التكنولوجيا، سيصبح اكتشاف هذه العلامات أكثر صعوبة، وشرح أنه لابد أن يصبح الجميع على دراية أكبر “بهذه التكنولوجيا، وأن يكونوا متشككين دائمًا في أي شيء يطلب منهم التصرف بشكل عاجل – وهذا غالبًا ما يكون علامة حمراء”.
“يجب أن يكونوا سريعين في طرح الأسئلة التي ربما لا يعرفها إلا الشخص الحقيقي، وألا يخافوا من محاولة التحقق من الأشياء قبل اتخاذ أي إجراء”.
كلمة سر للعائلة
يوصي شيريتس بتحديد “كلمة آمنة” مع أفراد العائلة والأصدقاء، موضحًا أنه إذا الشخص الحقيقي في موقف عاجل أو طارئ، فيمكنه أن يقول تلك الكلمة الآمنة وسيعرف متلقي الاتصال على الفور أنه هو الشخص حقًا وليس استنساخًا لصوته. وينصح شيريتس بأن يكون الجميع على دراية بما يقوم بتحميله من مقاطع فيديو أو صوت على الإنترنت لأنه من الممكن ببساطة استخدام تلك المقاطع لإعداد مقاطع تستخدم ضد الشخص بشكل مذهل.