عندما يتم تدريب نموذج الذكاء الاصطناعي على إنشاء صور من النص ، فإنه يستخدم مجموعة بيانات ضخمة من الصور والتعليقات التوضيحية المقابلة لها. يتم تدريب النموذج من خلال إظهار التسميات التوضيحية ، وجعله يحاول إعادة إنشاء الصور المرتبطة بكل واحدة ، قدر الإمكان. يتعلم النموذج كلا من المفاهيم العامة الموجودة في ملايين الصور ، مثل شكل البشر ، بالإضافة إلى تفاصيل أكثر تحديدا مثل القوام والبيئات والأوضاع والتركيبات التي يمكن التعرف عليها بشكل فريد.