15000张卡！上海电信打造全国最大运营商级智能计算中心-流量卡办理网

全国首个单池万卡国产液冷算力集群亮灯

作者：IT时报记者郝俊辉钱立夫

责任编辑：孙艳

上海创建“示范城市”工作迎来新高潮。

1月22日，新年伊始，中国电信上海公司（以下简称“上海电信”）宣布在上海点亮“大规模算力集群及人工智能公共算力服务平台”。

“这将是全国最大的运营商级智能计算中心。”上海电信总经理龚波介绍说，当天点亮的算力集群规模达1.5万卡，其中包括全国首个单池规模达1万卡的国产液冷算力集群。

《IT时报》记者独家获悉，该算力集群采用自主创新的AI芯片，在技术架构上实现突破，全部采用液冷方案，是目前国内规模最大、单池训练能力最高的液冷智能计算中心。

同日，上海电信发布人工智能公共算力服务系列产品。2022年7月，上海电信在全国电信运营商中率先发布公共算力服务。如今，一年半过去了，随着大模型风暴的兴起，全社会算力需求进一步爆发。上海电信再次推出“人工智能公共算力服务系列产品”，为全市人工智能企业提供一站式服务，降低算力使用门槛和成本，提高算力资源的可达性和利用效率。

此次产品和服务更新，不仅是上海电信进一步提供普惠算力的重要举措，也是上海电信在公共算力服务领域发展的重要里程碑。

随着全球步入人工智能时代，上海正书写“模范城市”新的进化史。作为上海新一代智能信息基础设施建设的主力军，上海电信在打造“全城上云”的“智慧云上海”之后，为城市人工智能的更新迭代和大模型产业生态升级构建了多元化、融合的智能计算基石，进一步推动上海向“全城AI”进化。

此次新闻发布会由上海电信与徐汇区政府联合举办，同日，“双万兆接入一跳计算服务”在徐汇区大模型专业孵化加速载体“模型速度空间”正式上线。

01 国产万卡液冷算力集群多重创新，打破算力焦虑

当算力成为国力争夺的核心资源时，国产算力的技术和能力突破备受关注。

“我们希望算力不再成为瓶颈。”发布会上，复旦大学附属中山医院信息智能部主任助理、规划管理中心主任钱坤透露，由于芯片的销售限制，很多基于国外算力和生态的大模型无法在医院适配和落地。这让她对当天上海电信点亮的国产万卡大规模算力集群十分期待。

发布会上透露的消息是，中国电信将在上海规划建设可支持万亿级参数大模型训练的智能计算中心，其中新建国内单池算力达1万卡，是国内首个支持单池万卡的超大规模算力液冷集群。

此轮人工智能引发的大模型风暴与通常的人工智能训练模式最大的不同，就是超海量参数数据的并行计算，也就是把多台服务器连成一台“超级计算机”，甚至完成计算卡之间的直连。然而，在数万张卡的算力集群上同时进行数据训练和推理，对软件规划和资源调度提出了极大挑战，尤其对于国内大规模算力集群和智能计算中心而言，它们发展才不久，没有太多经验可循。

“中国电信此次打造的万卡级国产算力集群，采用中心网络、算力分层的‘魔方’网络布局，实现单池万卡集群的架构创新，并采用液冷散热，是目前国内规模最大的国产液冷机房。”一位接近中国电信的人士向《IT时报》记者表示，无论是算力集群架构，还是机房建设水平，国产万卡液冷智能计算中心在多项技术指标和创新突破上，都位居国内第一。

02 普惠算力“随时可用”

2023年3月，在这一轮人工智能刚刚开始的时候，张家庆和合伙人毅然辞职，冲进大模型创业浪潮中，创办了开放传神公司，致力于大模型生态社区的建设，为大模型在垂直行业的应用提供工具平台和解决方案。

“我们创业不久就发现，算力成本确实很高。”现为开放传神联合创始人的张家庆告诉《IT时报》记者，为了更快利用模型构建应用，开放传神最初采用了AWS的海外云计算力和国内某大厂商的算力，但成本依然居高不下。“短期来看，算力成本仍然是整个大模型产业链的一个瓶颈。”

构建全民算力体系，不仅要让算力像水电一样随用随取，更要让全社会“用得起”、“用得上”。这是近两年来建设大型智能计算中心、启动东西算力战略、从国家到地方出台一系列算力优惠政策的目标。

2022年，上海电信率先宣布向社会提供公共算力服务，成为国内首家推出该项服务的电信运营商。经过一年半的不断建设升级，在本次发布会上，上海电信再次宣布推出基于中国电信“天翼云自研.0基座”的人工智能公共算力服务平台及系列产品，包括智能计算产品、弹性计算网络、算力调度平台及行业大模型等，从算力供应、算力交付、算力调度到模型训练和推理应用，为大模型企业提供一站式服务。通过云端算力租赁，企业大大减少了本地IT设备的投入，降低了使用算力的门槛。

“看见了就能用；能用了就能得。”据上海电信高级经理张康现场介绍，此次推出的算力产品均为成熟的商用产品，包括标准化套餐和定制化开发，客户可线上自主下单，也可线下咨询后按需下单，还面向全市各人工智能生态企业进行销售。

此外，算力大规模建设的背后，还存在计算资源供需不均衡、利用率较低，不同架构、不同厂商、不同资源池之间算力难以匹配等问题。

为了使企业能够获得更加经济高效的算力资源，全新上线的“熙然—全国一体化算力调度平台”可同时连接全国六大云厂商的87个中继节点，覆盖全国各头部云厂商所有资源池。

从现场演示中可以看到，当用户提出云渲染的算力需求时，平台显示天翼云雅安、天翼云扬州等地的资源池都有不同的算力配置和价格，用户可以根据延迟和价格按需购买。

在平台层面，通过中国电信天翼云面向大模型的一站式智能计算服务平台“慧聚”，总结提炼大模型开发和训练过程中的关键流程、复杂技术和宝贵的实践经验，构建一站式、全链路的大模型生产应用流水线，大大降低大模型训练、微调、部署、推理的门槛，让客户更加专注于模型升级和应用实施。

“我们接触过很多计算服务商，但能提供一站式服务的供应商非常少，上海电信在这方面有整体优势。”张家庆告诉记者，2023年9月，开放超越入驻上海市徐汇区建设的全国首个大型模型专业孵化加速载体“模型加速空间”，并逐步将国外云商的服务迁移到上海电信智能计算中心。“在不改变原有计算负荷的情况下，整体成本降低了60%。”

03 弹性计算网络：百公里一跳计算

除了丰富的算力和公共服务平台外，如果要让算力“无处不在”，成为像水、电一样，大众可及、随时可用的公共基础资源和服务，还必须拥有一个“通用”的计算网络，以满足不同对象对算力的多样化需求，比如精度、延迟、带宽等的差异。

随着大模型参数成倍增加，人工智能企业对网络的要求也越来越高。“超大规模、超高带宽、超强可靠性、超低时延和丢包率。”一位大模型专家告诉记者。大模型时代，电信运营商面临的网络要求更加严格，但出于成本考虑，企业无法承担过高的网络带宽成本，对弹性算力网络的需求尤为迫切。

开川深曾经遇到过这样的困境，作为一家大型模型创业公司，有时会将一批模型和数据集中上传，并为客户提供模型托管服务，但由于数据量巨大，这个过程往往需要几天的时间。

“最近我们正在和上海电信测试一跳计算，预计未来传输时间可以从几天缩短到几小时。”张嘉庆说。这个“一跳计算”指的是上海电信此次发布的“弹性计算网络”，它不仅大幅提升了大模型的训练效率，还可以让大模型企业根据实际业务需求，自由扩展算力带宽，从而降低带宽成本。

平日里，弹性计算网络可以为企业提供基础网速，一旦突发任务或周期性操作需要大带宽传输，当天即可启动动态提速。比如在带宽下，10TB的数据需要10天才能传输完成，通过“弹性计算网络”提速后，只需要2个小时就能传输完成，企业只需支付2个小时的费用，大大降低了使用计算网络的成本。

“这张弹性计算网络目前覆盖全国31个省、市、自治区，连接六大云厂商，最低计费粒度低至一小时，可平均降低用户50%的运营成本。”张康介绍。

此外，基于全球首个50G-PON全光万兆城市数字基站，上海电信正逐步构建普惠、易用、绿色、安全的综合计算基础设施体系。今年初更是率先实现百公里时延1ms的“一跳计算”。也就是说，从上海市徐汇区的“模块化极速空间”到临港中国电信智能计算中心，入驻企业可以在一毫秒内实现连接。