يلقي MusicLM عملية توليد الموسيقى الشرطية كمهمة نمذجة هرمية من تسلسل إلى تسلسل ، ويولد موسيقى عند 24 كيلو هرتز تظل متسقة على مدار عدة دقائق. تظهر تجاربهم أن MusicLM يتفوق على الأنظمة السابقة في جودة الصوت والالتزام بوصف النص. علاوة على ذلك ، نوضح أن MusicLM يمكن أن يكون مشروطا بكل من النص واللحن من حيث أنه يمكنه تحويل الألحان الصفير والطنين وفقا للأسلوب الموضح في تعليق نصي. لدعم بحث المستقبلية ، نصدر علنا MusicCaps ، وهي مجموعة بيانات تتكون من 5.5 ألف زوج من الموسيقى والنص ، مع أوصاف نصية منسقة يقدمها خبراء بشريون.