OCP Summit 2025: O futuro aberto do hardware de rede para IA

  • No Open Compute Project Summit (OCP) 2025, estamos compartilhando detalhes sobre a direção das malhas de rede de próxima geração para nossos clusters de treinamento de IA.
  • Expandimos nosso portfólio de hardware de rede e estamos contribuindo com novas plataformas de rede desagregadas para OCP.
  • Esperamos continuar a colaboração com a OCP para abrir designs de racks, servidores, caixas de armazenamento e placas-mãe para beneficiar empresas de todos os tamanhos no setor.

Na Meta, acreditamos que o hardware aberto é um catalisador para a inovação – especialmente à medida que a infraestrutura do data center suporta cada vez mais tecnologias novas e emergentes de IA. O hardware aberto desempenha um papel crucial ao permitir a desagregação, permitindo-nos dividir as tecnologias tradicionais de data center em seus componentes principais. Essa abordagem nos capacita a construir sistemas mais flexíveis, escaláveis ​​e eficientes.

Desde a co-fundação do Open Compute Project (OCP) em 2011, a Meta compartilhou projetos de data center e componentes e abriu o código-fonte de nosso sistema operacional de rede, FBOSSpara inspirar novas ideias tanto em nossas próprias operações quanto em todo o setor. Esses esforços desempenharam um papel importante para tornar os data centers da Meta sustentáveis ​​e eficientes. Hoje, através do OCP, continuamos a desenvolver tecnologias de rede aberta para a próxima geração de aplicações de IA.

Estamos anunciando vários novos marcos para nossa rede de data center:

  • A evolução de Malha Programada Desagregada (DSF) para oferecer suporte à interconexão escalável para grandes clusters de IA que abrangem edifícios inteiros de data centers.
  • Uma nova arquitetura Non-Scheduled Fabric (NSF) baseada inteiramente em switches Ethernet desagregados e de buffer raso que darão suporte aos nossos maiores clusters de IA, como Prometeu.
  • A adição do Minipack3N, baseado no Ethernet Spectrum-4 ASIC da NVIDIA, ao nosso portfólio de switches OCP de 51 Tbps que usam a pilha de software SAI da OCP e FBOSS da Meta.
  • O lançamento da iniciativa Ethernet for Scale-Up Networking (ESUN), onde a Meta trabalhou com outras operadoras de grande escala e principais fornecedores de Ethernet para avançar no uso da Ethernet para redes de expansão (especificamente as interconexões de alto desempenho necessárias para a próxima geração de arquiteturas aceleradoras de IA).

DSF de estágio duplo: escalando malhas programadas para clusters de IA maiores

Na Cúpula Global OCP do ano passado, compartilhamos Malha Programada Desagregada (DSF)um sistema baseado em VOQ alimentado pela rede aberta OCP-SAI padrão e FBOSS. A estrutura DSF suporta uma interface RoCE aberta e padrão baseada em Ethernet para endpoints e aceleradores em vários xPUs e NICs, incluindo Meta’s Desaparecido bem como de vários fornecedores.

No último ano, evoluímos o DSF para uma arquitetura de dois estágios, dimensionada para suportar uma malha sem bloqueio que interconecta até 18.432 XPUs. Esses clusters são um alicerce fundamental para a construção de clusters de IA que abrangem regiões (e até mesmo múltiplas regiões), a fim de atender às demandas crescentes de capacidade e desempenho das cargas de trabalho de IA da Meta.

A nova arquitetura DSF de dois estágios suporta malha sem bloqueio, permitindo a interconexão entre um número maior de GPUs em um cluster. Na Meta, nós o usamos para construir clusters de GPUs de 18k na escala de edifícios inteiros de data centers.

Fabrics não programados (NSF) para grandes clusters de IA

Paralelamente à evolução da arquitetura DSF, também desenvolvemos uma nova arquitetura chamada Non-Scheduled Fabric (NSF), com os seguintes recursos principais:

  • Baseado em switches Ethernet OCP de buffer raso.
  • Oferece baixa latência de ida e volta.
  • Suporta roteamento adaptativo para balanceamento de carga eficaz, garantindo utilização ideal e minimizando o congestionamento.
  • Serve como base para clusters de IA em escala de Gigawatts, como o Prometheus.
NSF — Fabrics não programados de três camadas para construir clusters de IA em escala.

Novas plataformas de switch OCP para AI Fabrics de última geração

No ano passado, Meta introduziu dois novos Switches Ethernet 51T: Minipack3 (baseado em Broadcom Tomahawk5) e Cisco 8501 (baseado em Cisco Silicon One G200). Esses switches OCP oferecem 51,2 Tbps (64 portas OSFP), são eficientes em termos de energia sem a necessidade de retimers e executam nosso sistema operacional de rede em grande escala, FBOSS. Essas plataformas serviram de base para a construção de nossas malhas de data center de front-end e back-end de próxima geração.

Este ano, estamos apresentando o Minipack3N, um novo switch Ethernet 51T baseado no switch ASIC NVIDIA Spectrum-4 e que utiliza o mesmo design de sistema do Minipack3.

O Minipack3N, um switch de 51,2 Tbps (projetado pela Meta e fabricado pela Accton) baseado no ASIC de switching Ethernet NVIDIA Spectrum-4.

Evoluindo FBOSS e SAI para DSF e NSF

A Meta continua a adotar o OCP-SAI como base para a integração de novas malhas de rede, plataformas de hardware de switch e transceptores ópticos no FBOSS. Por meio de estreita colaboração com fornecedores e a comunidade OCP, desenvolvemos o SAI para oferecer suporte a recursos e conceitos avançados, incluindo DSF, NSF e outros esquemas de roteamento aprimorados, adaptados para data centers modernos e cargas de trabalho de IA.

Essa abordagem aberta permite que desenvolvedores e engenheiros em todo o mundo se envolvam com hardware de ponta, contribuam com software inovador e aproveitem essas soluções para suas próprias necessidades. Ao compartilhar avanços e promover a colaboração, ajudamos a acelerar o progresso em todo o setor, garantindo que hardware e software abertos permaneçam no centro de uma infraestrutura de data center escalável, eficiente e pronta para o futuro.

Óptica: Óptica 2x400G FR4-LITE e 400G/2x400G DR4 para interconexões ópticas 400G/800G

No ano passado, a Meta lançou a óptica 2x400G FR4 BASE (3 km), a principal solução que suporta plataformas 51T de próxima geração em redes backend e frontend e DSFs. Essas ópticas já foram amplamente implantadas em todos os data centers da Meta.

Este ano, estamos ampliando nosso portfólio com o lançamento da óptica 2x400G FR4 LITE (500 m). Desenvolvido como parte de uma iniciativa de eficiência, o FR4 LITE é otimizado para a maioria dos casos de uso intradata centers, suportando links de fibra de até 500 metros. Esta nova variante foi projetada para acelerar a redução de custos ópticos e, ao mesmo tempo, manter um desempenho robusto para aplicações de menor alcance.

Além disso, estamos apresentando a óptica 400G DR4 OSFP-RHS — nossa solução DR4 de primeira geração para conectividade NIC do lado do host de IA. Complementando isso, a nova óptica 2x400G DR4 OSFP está sendo implantada no lado do switch, fornecendo conectividade do host ao switch.

O 400G DR4 (esquerda), 2x400G DR4 (centro) e 2x400G FR4 LITE (direita).

Ethernet para expansão de redes em OCP: a liderança da Meta no setor

Na Meta, reconhecemos que o futuro da IA ​​e da infraestrutura de data center depende de soluções de rede abertas, escaláveis ​​e interoperáveis. Como parte de nosso compromisso contínuo com hardware aberto e colaboração na indústria, a Meta é participante fundadora da nova iniciativa Ethernet for Scale-Up Networking (ESUN), lançada dentro da OCP no 2025 OCP Global Summit.

O que é ESUN?

ESUN é um novo fluxo de trabalho dentro do Projeto de Rede OCP. Funciona como um fórum técnico aberto onde os operadores da indústria e os principais fornecedores podem colaborar para avançar no uso da tecnologia Ethernet. O objetivo específico da ESUN é aproveitar e adaptar o ecossistema Ethernet maduro para atender às demandas exclusivas e de alto desempenho do domínio de expansão nos sistemas modernos de IA.

A ESUN está focada especificamente no funcionalidade de rede aspecto dos sistemas de expansão. O fluxo de trabalho foi projetado para enfrentar os desafios técnicos relacionados ao modo como o tráfego de dados é gerenciado e transmitido através de switches de rede. Isso inclui a definição de melhores práticas e padrões para:

  • Cabeçalhos de protocolo
  • Mecanismos de tratamento de erros
  • Alcançando transferência de dados sem perdas pela rede

A iniciativa reúne operadores, fornecedores e órgãos de padronização para:

  • Colabore em soluções Ethernet personalizadas para redes escaláveis.
  • Concentre-se no enquadramento Ethernet e nas camadas de comutação para garantir topologias multi-hop robustas, sem perdas e resistentes a erros.
  • Alinhe-se com padrões abertos trabalhando em estreita colaboração com organizações como UEC e IEEE.

Contribuições da Meta para ESUN

A Meta tem orgulho de estar entre o grupo inicial de membros do OCP que impulsionam a ESUN, ao lado de líderes do setor que inclui: AMD, Arista, ARM, Broadcom, Cisco, HPE, Marvell, Meta, Microsoft, NVIDIA, OpenAI e Oracle.

Nossas contribuições incluem:

  • Liderança técnica na definição dos requisitos para ESUN em clusters de IA.
  • Colaboração aberta com fornecedores e órgãos de padronização para garantir que as soluções sejam interoperáveis ​​e não vinculadas a tecnologias proprietárias.
  • Compartilhando as melhores práticas e lições aprendidas com a implantação de malhas Ethernet avançadas nos próprios data centers da Meta.,

Um convite da indústria: junte-se ao futuro aberto

Impulsionar o progresso na IA requer uma infraestrutura de data center que ofereça mais do que apenas escalabilidade – ela também deve ser flexível, eficiente e sustentável. Na Meta, imaginamos um futuro onde os sistemas de hardware de IA não sejam apenas altamente escaláveis, mas também abertos e colaborativos, permitindo rápida inovação e adaptação às cargas de trabalho em evolução.

Convidamos engenheiros, desenvolvedores e parceiros do setor para se juntarem a nós e à comunidade OCP na formação da próxima geração de hardware de rede para IA. Ao trabalharmos juntos e partilharmos ideias, podemos acelerar o desenvolvimento de infraestruturas de IA abertas e preparadas para o futuro que beneficiem toda a indústria e apoiem as exigências das tecnologias de amanhã.