你的位置:开云体育(中国)官方网站 > 关于开云 > 开云(中国) 东说念主民念念念DeepSeek

开头丨腾讯科技
撰文丨苏扬
最近对于Token的磋商挺奇幻的。
一又友圈遍地能看到Token中语翻译的磋商——有"词元"、"智元"等等,致使有"慧根"之类的搞笑版块。
Token不是一个新见解,大模子落地第一天起,它便与神经荟萃共生,但直到OpenClaw(俗称"龙虾")在用户群大畛域扩散,种种Agent应用开动把Token带入了公众视线。
我认为其中有两个弊端问题:它的消费量太大了,价钱也太贵了。
铭记OpenAI发布GPT-5.4的时候,有用户反映测试一句"你好"就消
耗掉了80好意思元的Token,那时不少东说念主王人说这个使用量太夸张,但跟着小龙虾大畛域在用户群扩散,一个任务烧完千万级Token成为常态。
与之相对的是,英伟达CEO黄仁勋在GTC2026大会上以及之后的好多时势,王人在强调工程师要大宗的使用Token,致使将Token纳入到薪酬激励机制。
一次对话方法,黄仁勋说:"如果年薪50万好意思元的工程师,连25万好意思元的Token王人没用掉,我会十分震惊。"
问题是,猖獗的烧Token一定能解决问题吗,有若干Token是有用的,什么样的插足产出比是合理的?
取悦刚刚外媒的音信,有OpenAI步调员一周烧掉了2100亿Token,相称于33个维基百科,但这么的消费量最终带来了什么?我发了一个一又友圈,说这么重度使用能升P10吗,有好友立地挑剔,"能帮卖Token的升P10。"
很明显,这场猖獗烧Token的畅通,能带来若干后果是存疑的,谁是赚钱者则是细主张。
黄仁勋将英伟达形色为"Token之王",领有寰球起初进的"Token制造机",但如果拚命饱读舞这件事,致使表现无用Token就会落伍,那么不错说:一方面,黄仁勋念念澈底改变AI期间企业"服从观察"的逻辑,另一方面,他也迤逦制造出了Token狂躁。
1
Token太贵了
不久前,我请问了周鸿祎"Token太贵"这个问题,他说:"各人以为Token贵可能存在些误会,因为大模子后端是不错机动树立的。"
在他的明白中,用户不错自主采用模子适度本钱。"普通聊天对话的本钱其实很低。真确消费Token的是复杂任务,比如帮你生成视频、创作短剧或写演义这类调用场景。"
我铭记猎豹迁移CEO傅盛在一条视频中说,我方通过一些使用手段把率先日均几百好意思元的Token用度,优化到咫尺日均10多好意思元,30天即是2100元,年费是25200元。
问题来了:有若干用户承担得起日均10好意思元的本钱?
对比咫尺中国互联网上的商用toC类软件,比如剪映,高端会员年费也只好600元傍边,文娱磋商的会员用度简略在300元傍边,根柢找不到一款年费杰出25000元的消费级软件。
"绝大部分东说念主一天10好意思金,仍然不会禁受,这里会过滤掉大片的非付用度户。"我对傅盛说,他莫得否定我的判断。
这些天,我也在尝试多样类型的小龙虾产物,要宣战到的用度远不啻Token。
举个例子,如果用户对生图有需求,就需要极度的生图模子API;如果要监控动态,也需要接入付费的搜索API,这些潜在的用度会逐渐的劝退绝大多数用户。诚然可能有一些开源变通的容颜降本,但开源容颜就迤逦荫藏着安全风险。
3月13日,那时腾讯科技"虾聊"系列直播的第一期(鹅厂工程师讲透“龙虾”真相:“笨”不是“虾”的错),玄武实验室的嘉宾Lambda共享过一个数据——他我方平均每个月"养虾"的用度在千元以上。
不管是参照消费级器用年费,如故行业"养虾户"的反映,基于Agent的Token消费说一句"Token太贵了",是站得住脚的。
2
存储瓶颈与服从黑洞
Token肤浅明白即是大言语模子处理信息的基本单元——用户输入教唆词,模子输出谜底,每一个字、每一个标点,王人司帐入Token的消费量,骨子上如故算力本钱。
以前各人计较算力总领有本钱,主张有好多,包括经营能效的Flops/W,核算均值的本钱/Flop
s等等,本年的"Token经济学"中,Token/W逐渐成为共鸣。
"咱们的每一个Token本钱王人是寰球最低的。"黄仁勋在GTC上说。
但不管有多低廉,不管是哪一种计较单元,它王人是插足本钱量化,波及到研发本钱、硬件本钱,部署本钱,能耗本钱,运营本钱等。换句话说,降本也王人是围绕上述方法张开。
对于Token降底本说,一个不好的音信是内存价钱在疯涨。
以HBM内存为例,它是复古大模子检修和推理的弊端器件,同期,推理数据量的暴涨也激勉出了存储需求的同步高涨。2026年第一季度,DRAM的价钱环比高涨杰出50%,NAND价钱环比最高潮幅达到150%。
黄仁勋、苏姿丰王人照旧喊出了"HBM有若干要若干",三星、好意思光这些存储原厂,照旧对外表示头部客户的策略长约照旧签到了5年。
《内存暴涨100天,千元机被动牺牲》一文提到过,消费级阛阓,千元机库存可能王人要停产了,但施行上受这个问题的影响,云厂商咫尺也处于加价的煎熬之中。咫尺行业最乐不雅的瞻望是2028年存储价钱回落,悲不雅少许要到2030年。
存储价钱一天不回落,Token降价就枯竭一个弊端的外部杠杆。
模子才气的培育也不错视为降价的另一个杠杆。"当今一些8B的小模子,才气越来越靠近全量大模子。"一位学术界研究员说。
在这方面,面壁智能聚合清华团队在《Nature》子刊上提议了DensingLaw的见解,强调大模子的才气密度随时刻指数增长,约每3.5个月翻一倍,同等性能所需参数目每3.5个月减半。
一位国产AI芯片从业者也强调模子才气好、畛域小,进而能股东本钱缩短。"你看国内开源大模子token价钱,基本王人跟模子畛域正磋商。"
多位国产算力从业者表现,培育MFU也会带来本钱压缩的空间,此外也还包括架构、显存等多方面的推理优化。
"MFU跟模子本人关系不太大,主如果算子和退换策略关联。"另一位国产存算一体芯片从业者说,"咫尺主流大模子的推理MFU均值在30%傍边,优化后可杰出50%,估量能省出50%的本钱。"
也即是说,行业并莫得榨干GPU的性能——花了100%的GPU钱,当今只用了不到三分之一的算力。
不外,MFU培育诚然不错带来单Token本钱下落,但会不会传导到C端,取决于大模子提供方的生意考量,如果用来打价钱战,开云体育这毫无疑问是一个有用的杠杆。
3
再来一次价钱战
中国大模子的价钱战,不是莫得前例。
2024年,国内厂商就也曾爆发过一轮强烈的价钱战。那时恰逢DeepSeek-V2上线,每百万Token输入1元、输出2元,彼时价钱相称于GPT-4-Turbo的百分之一。
DeepSeek那时的降价弊端就在于推理优化——MoE零散架构大幅缩短了计较量,MLA多头潜在重见解把KV缓存压缩90%以上。
DeepSeek开启这轮降价之后,立地阿里、字节、等等先后下场张开价钱战博弈,一度出现了"Token免费"的风物。
王小川当年在一次疏导会上谈价钱战,他认为与此前团购、网约车大战有骨子不同,"此次价钱战是径直坐褥力的供给,是B端阛阓的价钱战。"
在那时,王小川也强调即使短期内亏空,(大厂)也可能在一年后完毕盈利。
"在推理服从培育的情况下,通过补贴,用户有了尽头明显的增长,"一位参与过上一轮价钱战的大模子公司里面东说念主士说,"能够花了几个亿吧。"
不外,这一轮Token的消费,B端和C端需求同期爆发,反而和团购、网约车大战一样,具备改变坐褥关系的要求,但阛阓却推崇出了稀少的千里默。
前述参与价钱战的大模子里面东说念主士认为,在模子的特定才气闇练,有了褂讪用户开头的情况下,各人无意有能源再下场去打价钱战。
"Token消费不像2024年那种畛域了,这个情况下,为了虾打价钱战,存量用户的ARR收入也会被动失血,"前述国产AI芯片从业者说,"没必要,价钱战带来的增量还不细目,先把存量自砍了,这账不好算。"

ArtificialAnalysis追踪的大模子API价钱
字据ArtificialAnalysis的追踪数据,国产模子的API单价照旧实足低廉了,仅仅这个低廉进程对于Agent的巨量消费来说,还远远不够。
如前边所说,受内存和存储的硬件本钱冲击,国内云厂商当今靠近的是加价的周折,短期不太有降价的可能性。
"当今是前两年价钱战的抓续,国内厂商的价钱比北好意思有明显的上风。仅仅各人明晰抢用户是个抓久战,不是一两次价钱战能措置的。"前述国产存算一体芯片从业者补充说念。
4
把模子"焊"在芯片上
为了解决Token猖獗消费带来的本钱问题,一部分用户开动尝试哄骗土产货部署模子。
到咫尺为止,照旧有不少用户基于MacMini为"小龙虾"树立土产货模子,只不外这种解决决策,在短时刻内会握住地推高Token使用本钱,同期土产货部署本人就存在门槛,且开源模子的才气无意能够适宜用户的需求。
针对那些初学级用户,也有厂商尝试推出EdgeClaw硬件,况且在硬件生意之上,套上一层安全的故事,这其实是一个值得尝试的场合,仅仅在内存加价大环境下,显得有些生不逢辰。
此前,一位Mini主机创业者说,加价对行业王人有冲击。
"以前用户是以为'好贵',当今径直根柢不看了,他们并不在乎你的内存和硬盘有多大。"该创业者说。
与此同期,一些品牌也在电商平台推出准系统产物(无内存、存储),最廉价钱在2000元以内,它们诚然莫得"安全故事",却是Edgeclaw这种创业型容颜第一个要越过的难关。
对"小龙虾"端侧AI硬件来说,最大的挑战如故MacMini,苹果
的供应链话语权和毛利率不错复古MacMini超高性价比的订价,创业团队在这里很难讲故事。
还铭记2025岁首期,DeepSeek爆火时的"一体机"吗,你看今天行业里面还有它们的故事吗?
除了一体机这种集成硬件决策,也有创业容颜尝试从更底层的芯片上去作念转换。
2月份,Taalas团队推出了一款全新的芯片HC1,该芯片基于TSMCN6制程,diesize815mm²,晶体管密度仅53B,单芯片可运行Llama3.18B模子,最中枢的是单用户TPS(Token/s)输出16960/s,数据号称爆表,弊端就在于HC1的策画。
Taalas团队在这款芯片上,用MaskROM将Llama3.18B模子权重硬编码固化在硅片上,芯片金属层连线相称于神经元贯穿,相称于把模子"焊在"芯片上,同期完毕计较与存储物理交融,澈底摒除HBM/DRAM数据搬运,险阻了内存墙截止。
诚然TPS性能凸起,它的短板也一样来自于模子"焊在"芯片上这个特色,这意味着只可跑固定版块的固定模子,权重不行改、结构不看成,念念换模子就要重新流片,你也不错明白为专芯专用。
5
写在临了
一切的磋商王人基于Token使用本钱——贵的不是单价,而是重度任务对Token使用量的倍数放大。

我也曾尝试过用小龙虾来生成指定时刻戳的gif,在和一位同业疏导的流程中,他说:"你这里面的gif图,咱们共事作念,半分钟作念一张,手工。"
尽管这个案例不是很典型,但如果作念几张gif就要花掉几元钱,明显不具备经济性。

接入DeepSeekAPI制作gif的消费情况
要改变这少许,要么领有更低廉的Token订价,要么Token消费最小化,这依赖模子层面的优化,也取决于推理硬件层面的转换。
但不管怎样,在Token使用的总用度打不下来,且插足的有用产出不解确的情况下,猖獗安利Token消费,致使强调与绩效挂钩,说是制造Token狂躁,制造AI狂躁也不为过。
再往前看,老黄还命令科技行业首长审慎发声,幸免激勉公众对东说念主工智能技巧的非感性震惊。这就好比跟全行业说:别打压东说念主工智能制造震惊了,你们王人要把Token烧起来。
可问题是,谁来解决价钱问题呢,会是迟迟莫得到来的DeepSeekV4吗?
我铭记2017年的时候,有一篇刷屏著述叫《东说念主民念念念周鸿祎》,当今东说念主民应该很念念念Token价钱战,念念念DeepSeek。
至少对于"虾民"来说开云(中国),能够率如斯。
球赛下注(中国)官方网站