歸藏(guizang.ai) avatar

歸藏(guizang.ai)

@op7418

金融时报今天发了一篇报道,说了一下 Deepseek R2 推迟发布的原因

R1 发布后上面鼓励 DeepSeek 用华为的显卡替代英伟达训练 R2

但是在 R2 用华为的过程中遇到了持续的技术问题,最后没办法又换回了英伟达显卡,改成只在推理阶段用。

因为这些耽误的时间导致 Deepseek 5 月以来的模型发布时间赶不上其他公司。

里面说即使华为的技术一直在 DeepSeek 常驻帮忙,但是还是 DeepSeek 没能在华为显卡上执行进行一次成功训练。

另外 R2 推迟发布可能还跟数据标注时间过长有关。

英伟达这个生态是老黄苦心经营那么多年才构建起来的,不能单纯当硬件参数去比较,不只是中国公司不行,美国其他公司除了谷歌的 TPU 也都不行。
来源:https://www.ft.com/content/eb984646-6320-4bfe-a78d-a1da2274b092
发现一个有趣的事情,评论区有些朋友一直在讨论发新闻的目的,而不是新闻内容,另外只是转发不代表完全同意其中观点和信息
我们当然要支持国产显卡和芯片,但是是不是无底线支持,需要不需要牺牲国产模型训练进度和能力去支持
Compartilhar
Explorar

TweetCloner

O TweetCloner é uma ferramenta criativa para o X/Twitter que permite clonar qualquer tweet ou tópico, traduzi-lo e remixá-lo em novo conteúdo e republicá-lo em segundos.

© 2024 TweetCloner Todos os direitos reservados.