this post was submitted on 04 Feb 2025
22 points (95.8% liked)

DACH - Deutschsprachige Community für Deutschland, Österreich, Schweiz

2344 readers
467 users here now

Das Sammelbecken auf feddit.org für alle Deutschsprechenden aus Deutschland, Österreich, Schweiz, Liechtenstein, Luxemburg und die zwei Belgier. Außerdem natürlich alle anderen deutschprechenden Länderteile der Welt.

Ursprünglich wurde diese Community auf feddit.de gegründet. Nachdem feddit.de mit immer mehr IT-Problemen kämpft und die Admins nicht verfügbar sind, hat ein Teil der Community beschlossen einen Umzug auf eine neue Instanz unter dem Dach der Fediverse Foundation durchzuführen.

Für länderspezifische Themen könnt ihr euch in folgenden Communities austauschen:

Eine ausführliche Sidebar mit den Serverregeln usw. findet ihr auf der Startseite von feddit.org

___

founded 7 months ago
MODERATORS
 

Archiv-Link

DeepSeek soll Zugriff auf Zehntausende GPU-Beschleuniger zur Entwicklung der eigenen KI-Modelle haben, darunter auch H100-GPUs, die unter die US-Exportverbote fallen. Die kolportierten Kosten von knapp 5,6 Millionen US-Dollar für DeepSeek v3 stellen vermutlich nur einen kleinen Teil der Gesamtrechnung dar.

Im Paper zum V3-Modell schreibt DeepSeek von einem vergleichsweise kleinen Rechenzentrum mit 2048 H800-Beschleunigern von Nvidia. Die Firma rechnet mit hypothetischen Mietkosten von 2 US-Dollar pro Stunde und H800-GPU. Bei aufsummiert knapp 2,8 Millionen Rechenstunden (verteilt auf 2048 GPUs) kommen die 5,6 Millionen US-Dollar zustande.

Die Entwickler selbst führen allerdings eine Einschränkung an: "Bitte beachte, dass die oben genannten Kosten nur das offizielle Training von DeepSeek-V3 beinhalten und nicht die Kosten, die mit früheren Forschungs- und Ablationsexperimenten zu Architekturen, Algorithmen oder Daten verbunden sind."

...

Semianalysis hat sich mit einer realistischen Kostenaufstellung beschäftigt. Laut den Analysten hat DeepSeek über das Mutterunternehmen High-Flyer Zugriff auf etwa 60.000 Nvidia-Beschleuniger: 10.000 A100 aus der Ampere-Generation, bevor die US-Exportbeschränkungen in Kraft traten, 10.000 H100 vom Graumarkt, 10.000 für China angepasste H800 und 30.000 H20, die Nvidia nach neueren Exporteinschränkungen auflegte.

...

Allein die Entwicklung der Caching-Technik Multi-Head Latent Attention (MLA) soll Monate beansprucht haben. Dabei komprimiert das KI-Modell alle generierten Token, damit es bei neuen Abfragen schnell auf die Daten zugreifen kann, ohne viel Speicherplatz zu beanspruchen.

Eine zweite Neuerung dürfte ebenfalls einige Ressourcen in Anspruch genommen haben: "Dual Pipe". DeepSeek nutzt einen Teil der Streaming-Multiprozessoren (SMs) in Nvidias GPUs als eine Art virtuelle Data Processing Unit (DPU), wie Nextplatform herausstellt. Sie kümmern sich unabhängig vom Prozessor um die Datenbewegungen in und zwischen den KI-Beschleunigern – mit viel geringeren Wartezeiten als beim Einsatz von CPUs, was die Effizienz steigert.

Im Paper zum mächtigeren R1-Modell macht DeepSeek keinerlei Angaben zur eingesetzten Hardware. Hier wäre der Einsatz eines kleinen Rechenzentrums noch unglaubwürdiger. Ausgehend von einem X-Beitrag häuften sich zuletzt Meldungen, dass DeepSeek für R1 auch KI-Beschleuniger von Huawei verwenden könnte.

you are viewing a single comment's thread
view the rest of the comments
[–] [email protected] 3 points 17 hours ago

darum gings ja auch nicht sonder das mans von ner meile hat hommen sehn