OpenAI und Google trainieren KI mit YouTube-Transkripten

Verwendung von YouTube-Transkripten f├╝hrt zur Kontroverse um OpenAI und Google


Die Nutzung von YouTube-Videos zum Training von KI-Modellen durch Unternehmen wie OpenAI und Google hat in j├╝ngster Zeit eine Debatte ├╝ber Datenschutz, Urheberrechte und ethische Standards entfacht. Berichte zeigen, dass sowohl OpenAI als auch Google von Youtube-Transkripten gebrauch gemacht haben, um ihre KI-Algorithmen zu verbessern. Diese Vorgehensweise wirft jedoch zahlreiche Fragen auf, insbesondere in Bezug auf die Rechtm├Ą├čigkeit und die potenziellen Auswirkungen auf die Creator dieser Videos sowie auf die User der Plattform.

Ein zentraler Aspekt dieser Debatte ist der m├Âgliche Versto├č gegen Urheberrechte. YouTube-Videos sind urheberrechtlich gesch├╝tztes Material, das von den Erstellenden hochgeladen wird. Die Transkripte dieser Videos k├Ânnten sensible Informationen enthalten. Die Verwendung ohne entsprechende Genehmigung k├Ânnte daher als Verletzung der Rechte der Urhebenden angesehen werden. Google behauptet, nur Videos von autorisierten Creatorn verwendet zu haben. Diese Behauptung steht im Kontrast zu Berichten ├╝ber OpenAI, denen zufolge das Unternehmen Transkripte von YouTube-Videos genutzt hat, ohne sicherzustellen, dass die Erstellenden diesem Vorgehen zugestimmt haben. In jedem Fall untersagen die Nutzungsbedingungen von Youtube die Verarbeitung von Videos auf der Plattform durch davon unabh├Ąngige Quellen. Google k├Ânnte dort allerdings auf der sichereren Seite stehen, indem sie dies in einem Update der Nutzungsbedingungen bereits eingeschr├Ąnkt und Einverst├Ąndniserkl├Ąrungen von gro├čen Influencern eingeholt haben. So ist es dem Unternehmen nun m├Âglich, Daten aus Google Docs, Restaurant-Rezensionen, Google Maps und anderen Google-Diensten f├╝r KI-Trainings zu nutzen. Expertinnen und Experten sehen hierin aber weiterhin eine zum Teil vorhandene ├ťberschreitung der Urheberrechte.

Sam Altman / OpenAI
Sam Altman / OpenAI

Die Grenzen des KI-Trainings

OpenAI hat mithilfe des Spracherkennungstools Whisper bereits auf viele neue Quellen f├╝r das Training von seinen Sprachmodellen zugegriffen. Alleine auf YouTube wurden so bereits ├╝ber eine Million Stunden an Inhalten f├╝r das Training f├╝r das aktuellste Modell GPT-4 verwendet.

KI-Unternehmen wie OpenAI und Google stehen vor der Herausforderung, st├Ąndig neue Daten f├╝r ihre Sprachmodelle zu finden. Dies wird durch ein Forschungsinstitut namens Epoch unterst├╝tzt, das darauf hinweist, dass Unternehmen bis 2026 m├Âglicherweise an Grenzen sto├čen k├Ânnten, wenn es keine neuen Daten mehr gibt. Laut der New York Times werden Daten schneller verwendet, als sie produziert werden, was bedeuten k├Ânnte, dass ein Mangel an neuen Datenquellen zu einer Engpasssituation f├╝hren w├╝rde. Diese Bedenken wurden bereits im Mai 2023 von OpenAI-CEO Sam Altman w├Ąhrend einer Rede ge├Ąu├čert. Auch Meta von Mark Zuckerberg ist mit ├Ąhnlichen Problemen konfrontiert. Laut Berichten erw├Ągt das KI-Team von Meta den Kauf eines gro├čen Verlags, um an frische Trainingsdaten zu gelangen.