Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
🚨 A equipa Qwen da Alibaba lançou uma estrutura que torna o treino de IA 8x mais eficiente.
Chama-se OPUS
Resolve o problema que cada laboratório de IA está silenciosamente a entrar em pânico: a Parede de Dados.
O texto público de alta qualidade está a esgotar-se. As projeções dizem que estará esgotado entre 2026 e 2028.
O OPUS não encontra mais dados. Ele escolhe os dados certos em cada passo de treino.
Aqui está como funciona:
→ Em cada passo do otimizador, o OPUS pontua um buffer candidato de amostras de treino
→ Projeta a atualização efetiva de cada amostra na geometria real do otimizador (AdamW, Muon)
→ Mede quanto cada amostra melhoraria o desempenho em um benchmark alvo
→ Usa amostragem de Boltzmann para preservar a diversidade e evitar redundância
→ Seleciona apenas os tokens de maior utilidade para a atualização
Aqui está a parte mais louca:
Ele treinou o GPT-2 XL com 30B de tokens e superou modelos treinados com 200B de tokens.
Isso não é um erro de digitação. 30B venceu 200B.
No Qwen3-8B, o OPUS igualou o treino completo com 3B de tokens usando apenas 0.5B de tokens. Um ganho de eficiência de dados de 6x. Na continuação do pré-treino em domínios científicos.
Ainda mais louco: eles deram deliberadamente ao OPUS os dados de menor qualidade (pontuação FineWeb-Edu 3) enquanto as linhas de base foram treinadas na partição de alta qualidade (pontuações 4-5). O OPUS ainda venceu. Dados de menor qualidade, selecionados dinamicamente, venceram dados de maior qualidade filtrados estaticamente.
Tudo isso com apenas 4.7% de sobrecarga computacional adicional.
...

Top
Classificação
Favoritos
