OpenAI und Google trainieren KI mit YouTube-Transkripten

Verwendung von YouTube-Transkripten f├╝hrt zur Kontroverse um OpenAI und Google


Die Nutzung von YouTube-Videos zum Training von KI-Modellen durch Unternehmen wie OpenAI und Google hat in j├╝ngster Zeit eine Debatte ├╝ber Datenschutz, Urheberrechte und ethische Standards entfacht. Berichte zeigen, dass sowohl OpenAI als auch Google von Youtube-Transkripten gebrauch gemacht haben, um ihre KI-Algorithmen zu verbessern. Diese Vorgehensweise wirft jedoch zahlreiche Fragen auf, insbesondere in Bezug auf die Rechtm├Ą├čigkeit und die potenziellen Auswirkungen auf die Creator dieser Videos sowie auf die User der Plattform.

Ein zentraler Aspekt dieser Debatte ist der m├Âgliche Versto├č gegen Urheberrechte. YouTube-Videos sind urheberrechtlich gesch├╝tztes Material, das von den Erstellenden hochgeladen wird. Die Transkripte dieser Videos k├Ânnten sensible Informationen enthalten. Die Verwendung ohne entsprechende Genehmigung k├Ânnte daher als Verletzung der Rechte der Urhebenden angesehen werden. Google behauptet, nur Videos von autorisierten Creatorn verwendet zu haben. Diese Behauptung steht im Kontrast zu Berichten ├╝ber OpenAI, denen zufolge das Unternehmen Transkripte von YouTube-Videos genutzt hat, ohne sicherzustellen, dass die Erstellenden diesem Vorgehen zugestimmt haben. In jedem Fall untersagen die Nutzungsbedingungen von Youtube die Verarbeitung von Videos auf der Plattform durch davon unabh├Ąngige Quellen. Google k├Ânnte dort allerdings auf der sichereren Seite stehen, indem sie dies in einem Update der Nutzungsbedingungen bereits eingeschr├Ąnkt und Einverst├Ąndniserkl├Ąrungen von gro├čen Influencern eingeholt haben. So ist es dem Unternehmen nun m├Âglich, Daten aus Google Docs, Restaurant-Rezensionen, Google Maps und anderen Google-Diensten f├╝r KI-Trainings zu nutzen. Expertinnen und Experten sehen hierin aber weiterhin eine zum Teil vorhandene ├ťberschreitung der Urheberrechte.

Sam Altman / OpenAI
Sam Altman / OpenAI

Die Grenzen des KI-Trainings

OpenAI hat mithilfe des Spracherkennungstools Whisper bereits auf viele neue Quellen f├╝r das Training von seinen Sprachmodellen zugegriffen. Alleine auf YouTube wurden so bereits ├╝ber eine Million Stunden an Inhalten f├╝r das Training f├╝r das aktuellste Modell GPT-4 verwendet.

KI-Unternehmen wie OpenAI und Google stehen vor der Herausforderung, st├Ąndig neue Daten f├╝r ihre Sprachmodelle zu finden. Dies wird durch ein Forschungsinstitut namens Epoch unterst├╝tzt, das darauf hinweist, dass Unternehmen bis 2026 m├Âglicherweise an Grenzen sto├čen k├Ânnten, wenn es keine neuen Daten mehr gibt. Laut der New York Times werden Daten schneller verwendet, als sie produziert werden, was bedeuten k├Ânnte, dass ein Mangel an neuen Datenquellen zu einer Engpasssituation f├╝hren w├╝rde. Diese Bedenken wurden bereits im Mai 2023 von OpenAI-CEO Sam Altman w├Ąhrend einer Rede ge├Ąu├čert. Auch Meta von Mark Zuckerberg ist mit ├Ąhnlichen Problemen konfrontiert. Laut Berichten erw├Ągt das KI-Team von Meta den Kauf eines gro├čen Verlags, um an frische Trainingsdaten zu gelangen.

adam neumann will wework zuruckkaufen fisker findet keinen

Heute u. A. mit diesen Themen:

  • Adam Neumann bietet ├╝ber 500 Millionen US-Dollar f├╝r den R├╝ckkauf der insolventen B├╝rovermietungsfirma WeWork.
  • Das Aachener Medizintechnikunternehmen Protembis sichert sich 30 Millionen Euro in einer Series-B-Finanzierungsrunde.
  • Fisker scheitert bei der Suche nach einem strategischen Partner, was die finanzielle Zukunft des Elektroauto-Startups gef├Ąhrdet.
  • Das Frankfurter InsurTech Clark plant gr├Â├čere ├ťbernahmen und f├╝hrt Gespr├Ąche mit Investoren zur Sicherung weiteren Kapitals.
  • Das Forschungszentrum J├╝lich und eleQtron entwickeln einen modularen Quanten-Supercomputer, gef├Ârdert mit 21 Millionen Euro.
  • Der Online-Marktplatz Temu steht wegen Verst├Â├čen gegen Verbraucherschutzrichtlinien im Fokus des Bundesverbands der Verbraucherzentralen (VZBV).
  • US-Investoren von TikTok geraten wegen der Verbindungen des Unternehmens zu China und nationalen Sicherheitsbedenken unter Druck.
  • Der Global E-Waste Monitor 2024 berichtet von einem neuen Rekordwert von 62 Millionen Tonnen Elektroschrott im Jahr 2022, mit einer Recyclingquote von weniger als einem Viertel.

—–

Du bist nur an spezifischen Formaten des Podcasts interessiert? Kein Problem! Dann abonniere hier die einzelnen Formatkan├Ąle: Startup News, Investments & Exits, Startup Spotlight┬á

 

├ťber Startup Insider:┬á

Startup Insider ist fest entschlossen, das f├╝hrende Informationsmedium der deutschsprachigen Startup-Szene zu werden. Mit unseren Medienkan├Ąlen – Podcast, Newsletter, Plattform – wollen wir nicht nur informieren, sondern auch inspirieren und Startups auf ihrem Weg zum Erfolg unterst├╝tzen.

Die Startup Insider Plattform: 

Das Ziel der Plattform ist es, Dreh- und Angelpunkt f├╝r die deutschsprachige Startup-Welt zu werden. Von einer umfassenden Datenbank mit detaillierten Profilen von Startups, Investoren und Branchenf├╝hrern bis hin zu einem Eventkalender, Jobb├Ârse, Podcast-Archiv und mehr. Hier findest Du alles zum Thema Startups.

Erstelle hier Dein ├Âffentliches Startup-Profil auf der Plattform.

Erstelle hier Dein ├Âffentliches Investoren-Profil auf der Plattform.

Lade hier Deine Pressemitteilung auf der Plattform hoch.

Weitere Links: 

Deine Zielgruppen sind Startups, Scale-Ups, Investoren sowie Startup- und Tech-Enthusiasten? Dann lade Dir hier unsere Preislisten f├╝r potenzielle Werbem├Âglichkeiten mit Startup Insider herunter.

Wenn Du nichts Wichtiges aus der Startup-Welt verpassen m├Âchtest, dann melde Dich hier f├╝r unseren t├Ąglichen Newsletter mit ├╝ber 20.000 Abonnenten an.

Du m├Âchtest ├╝ber spezifische Themen wie Startup-Investments, Blockchain und FinTech auf dem Laufenden bleiben? Dann abonniere hier unsere themenspezifischen Newsletter.

Du bist ein Startup auf der Suche nach Investoren oder ein Investor auf der Suche nach Startups? Dann schau Dir hier unseren Matchmaking-Newsletter ÔÇťAngels meet StartupsÔÇŁ an.

Alle Infos zu ausgew├Ąhlten Werbepartnern findest du hier.

 

P.S.: Wenn Du nichts verpassen willst, was bei Startup Insider passiert, folge uns auf LinkedIn!

folge 275: erfindet der computer neues leben?

Shownotes

Texte und Bilder gehen der K├╝nstlichen Intelligenz bereits leicht von der Hand. Nun setzen die Entwickler zum n├Ąchsten Sprung an und ├╝bertragen die Technologie auf Biologie, Chemie und Materialwissenschaften. Trainiert mit dem entschl├╝sselten Genom aller kartierten Lebewesen, k├Ânnten Computer bald neues Leben vorhersagen und so neue Organismen entstehen lassen. Zahlreiche Anwendungen von der heilenden Medizin bis zum destruktiven Terrorismus sind denkbar. Wie hegt man die Gefahren dieser Technologien ein, f├Ârdert aber gleichzeitig ihren Nutzen? Wo steht die Computertechnik heute und h├Ąlt die biologische Synthetisierung errechneter Gensequenzen mit dieser Entwicklung Schritt? Wie kann verhindert werden, dass ├ťbelt├Ąter gef├Ąhrliche Erreger auf handels├╝blichen Synthetisieren ausdrucken und in Umlauf bringen?

Eine Folge f├╝r alle, die sich f├╝r die Auswirkungen dieser k├╝nstlichen Intelligenzen und neuen Technologien interessieren und die sich fragen, weshalb sie sowohl faszinierend als auch gef├Ąhrlich sein k├Ânnen. Und f├╝r die, die wissen wollen, wie eine verantwortungsbewusste Anwendung betr├Ąchtliche Vorteile erzielen kann.

Ihnen hat die Folge gefallen oder Sie haben Feedback f├╝r uns? Dann schreiben Sie uns gerne an podcast@hy.co. Wir freuen uns ├╝ber Post von Ihnen.