Recebemos para review / análise a placa de vídeo ASUS TUF Gaming GeForce RTX 4070 Ti OC, modelo high-end da NVIDIA, placa que enfim começa a trazer a microarquitetura Ada Lovelace para preços inferiores aos "inalcançáveis" 10 mil reais. Ela escalona os recursos presentes nas RTX 4090 e 4080 agora mirando em novos níveis de performance e custo. Esse é um chip que não possuirá projeto Founders Edition, sendo este modelo da ASUS o enviado para testes pela Nvidia Brasil.
As placas RTX 40, codinome Ada Lovelace, introduzem a nova microarquitetura da TSMC 4N em 5nm, aprimoram os núcleos RT, trazem mais cache L2 e tem como grande destaque a introdução do suporte ao DLSS 3, capaz de gerar quadros inteiros através de AI. A placa também apresenta um salto de eficiência de 2x, podendo incrementar a performance em 4x ou mais em games com o uso intensivo de Ray Tracing devido a maior eficiência dessa placa para lidar com essa tecnologia.
Com o cancelamento da GeForce RTX 4080 12GB, a Nvidia ficou sem nenhum modelo com preço abaixo dos R$ 10.000 no lançamento das RTX 40. Recentemente a rival AMD ocupou esse espaço introduzindo as Radeon RX 7900 XTX e XT, e enfim a Nvidia está introduzindo um modelo para competir nessa faixa de custo, trazendo as tecnologias como DLSS 3 para um custo "menos caro". O foco da RTX 4070 Ti é o gameplay em 1440p, cenário onde essa placa tem potencial de entregar mais de 120fps sem dificuldades, de acordo com a Nvidia.
A GeForce RTX 4070 Ti enfim preenche a lacuna com o cancelamento da RTX 4080 12GB
A RTX 4070 Ti foi introduzida com preço sugerido a partir de US$ 799, 100 dólares mais barato que a "deslançada" RTX 4080 12GB. A RTX 4080, até então a mais barata RTX 40, saía por nada menos que 1.199 dólares, e a antecessora nominal, a RTX 3070 Ti, foi anunciada por US$ 599, mas ainda hoje é encontrada por valores maiores que esse. A principal rival é a Radeon RX 7900 XT, com preço sugerido de US$ 899. No Brasil seu preço sugerido é de R$ 7.199, colocando ela próxima do preço cobrado na RTX 3080 Ti e Radeon RX 6900 XT, atualmente, e uns R$ 1 mil abaixo da RX 7900 XT.
A linha RTX 40 é a terceira (a quarta se contarmos o refresh das RTX 20 Super) geração da filosofia heterogênea da Nvidia com o foco em viabilizar o Ray Tracing em tempo real. Isso quer dizer que além das estruturas "faz tudo" dos shadders tradicionais, introduzidos há mais de 20 anos pela própria Nvidia e hoje um padrão da indústria de chips gráficos, há também estruturas especializadas em outras funções presentes nos chips GeForce RTX 40.
Começando pelas estruturas mais tradicionais dos Stream Multiprocessors (SMs), os shadders - ou como a Nvidia chama, os núcleos CUDA - foram otimizados e agora são capazes de entregar até o dobro de performance por watt consumido, comparado ao que estava disponível nas placas baseadas na microarquitetura Ampere (RTX 30). Nessas estruturas uma das modificações mais relevantes é o aumento no cache L2, com uma RTX 4090 entregando 72MB de cache nível 2, enquanto a RTX 3090 Ti trazia apenas 6MB
O grande avanço da geração Lovelace para os "bons e velhos" shadders é a introdução do Shader Execution Reordering (SER), algo que fica como reordenamento de execução dos shadders em uma tradução livre para o português. De acordo com a Nvidia, essa nova tecnologia terá um impacto tão relevante quando a computação assíncrona foi nos processadores. Com ela, a placa de vídeo poderá modificar a ordem que realiza etapas de processamento gráfico, agrupando instruções de forma a serem executadas mais eficientemente. O grande beneficiário dessa tecnologia é o processamento de traçado de raios, que de acordo com a Nvidia acontecerão 3x mais rápido e resultaram em um aumento na taxa de quadros de 25%.
Outra estrutura atualizada são os núcleos RT, porção do chip gráfico GeForce dedicado a acelerar processos do traçamento de raios de luz. A especialidade desse componente é fazer o cálculo das interseções dos raios, desenhando a direção que um feixe de luz tem ao colidir com um objeto, mudar sua trajetória e enfim chegar ao observador. Os núcleos RT da terceira geração que equipam as RTX 40 conseguem entregar o dobro desses cálculos comparado às GeForce RTX 30, gerando o dobro de RT-FLOPS.
Melhorias da arquitetura trazem saltos mais significativos em games com Ray Tracing, e viabilizam um uso mais intensivo dessa tecnologia, com mais raios sendo calculados e uma cena mais realista
Esses núcleos de Ray Tracing também incorporaram um novo Opacity Micromap (OMM), ou micro-mapa de opacidade em tradução livre, que acelera o processamento de estruturas como folhagem e cercas, enquanto o DMM Engine consegue fazer de forma 10x mais rápida o processo do bounding volume hierarchy (BVH) com uso 20x inferior de armazenamento. Tudo isso somado viabiliza saltos superiores a 2x em cenários de uso intensivo de Ray Tracing, quando comparamos uma placa baseada em Ampere (RTX 30) com uma Ada Lovelace (RTX 40).
Mas a iniciativa mais ousada nas RTX 40 é feita com os núcleos tensores. Essas estruturas são especializadas em cálculo de matrizes, e isso torna elas extremamente eficientes para inferência e aprendizado da máquina. A principal novidade é uma maior dispersão de dados, conseguindo atingir as respostas corretas com um menor número de cálculos, introduzindo com as Ada Lovelace as instruções em um novo formato de dados FP8. Comparado ao FP16 usado em gerações anteriores, as RTX 40 usam metade do espaço de armazenamento e entregam o dobro de instruções em AI, fazendo uma RTX 4090 entregar o dobro de poder de processamento que uma RTX 3090 Ti, por exemplo. Isso é parte do hardware necessário para a nova versão do DLSS, mas esse assunto vai precisar de um tópico próprio, por ser a grande inovação das RTX 40.
O Nvidia DLSS3
Até a versão 2.1 do DLSS, a Nvidia utilizava essa tecnologia como uma forma de aumentar a performance do sistema da seguinte foram: o frame é renderizado em uma resolução inferior a final, economizando recursos do sistema e entregando um novo quadro mais rapidamente. Então os núcleos tensores e sua capacidade de AI preenchiam os pixels faltantes para entregar a resolução final, fazendo correções ao longo do caminho como aumento de nitidez e melhoria do serrilhado da imagem. Versões mais modernas do DLSS passaram também a aproveitar informações dos motion vectos, o deslocamento dos vetores, entendendo para onde cada objeto da cena estava se movendo, e melhorando o nível de acerto e qualidade gráfica da imagem.
A série 40 das GeForce dá um passo extra mais ousado. Ao invés de complementar a imagem, o DLSS 3 passará a fazer quadros inteiros por conta própria, o Optical Multi Frame Generator, ou gerador de multi quadros óptico, em uma tradução livre. E para isso, traz uma estrutura: o Optical Flow Accelerator, ou o acelerador de fluxo óptico, em tradução livre. Esse hardware tem a capacidade de analisar uma cena e entender qual a direção que os objetos na tela estão realizando, processando o sentido do movimento de cada pixel de um quadro para o próximo.
Esse recurso não é novo, sendo que desde as Turing (GTX 16 e RTX 20) a Nvidia já inclui o recurso em suas GPUs. A diferença é que as RTX 40 possuem um sistema muito mais aprimorado de leitura do movimento dos pixels entre quadros, para entregar uma informação mais rápida e precisa sobre pra onde "cada coisa vai" na imagem.
Com essa informação adicional, vem o salto do DLSS 3: usando a progressão dos dois quadros anteriores, as placas de vídeo RTX 40 podem criar um terceiro quadro unindo a posição de pixels anteriores com o seu deslocamento indicado pelos Acelerador de Fluxo Óptico, tudo "temperado" com decisões tomadas pelos núcleos tensores treinados pelo machine learning da Nvidia. A partir daí, o ciclo de produção de quadros passa a intercalar um quadro feito de forma tradicional com o motor do jogo, e outro gerado exclusivamente pelo DLSS.
Isso muda enormemente a taxa de quadros, já que vários dos processos mais pesados, como Ray Tracing, não são nem realizados no frame gerado pelo DLSS 3. Outros potenciais gargalos, como cenários CPU bound (limitados pelo processador) também podem ser beneficiados, já que os frames adicionais criados pelos núcleos tensores não demandam performance de processador.
O maior problema de ter uma imagem que não usa o motor do jogo é que esse frame não tem informações do gameplay do jogador, ou seja, aumentaria o intervalo entre a ação do gamer e o efeito ser exibido na tela, uma latência que faz o jogo não parecer responsivo. Para tentar mitigar esse efeito a Nvidia incorporou o Nvidia Reflex, uma série de otimizações que buscam reduzir ao mínimo os atrasos nas etapas de renderização, tentando entregar o menor intervalo possível entre a realização de um comando e o seu efeito na tela.
O Gerador de Multi Quadros Óptico não será útil em todos os jogos. Games que já estão rodando em altas taxas de quadro, como 100fps ou mais, não devem ser um bom cenário de uso para a tecnologia, já que o intervalo entre quadros já está em poucos milissegundos, gerando pouca oportunidade para o DLSS 3 melhorar mais a experiência de gameplay interpolando mais frames. Seu ponto forte será em cenários entre os 20 a 60fps e que envolvem filtros extremamente pesados, especialmente uso intensivo de Ray Tracing, onde o salto de performance pode chegar a 5x.
NVENC atualizado com AV1 para gravação e Streaming
As GeForce RTX 40 também trazem um incremento relevante para quem gosta de fazer lives ou gravar seus gameplays. O NVENC de oitava geração que equipa as placas Ada Lovelace foi atualizado com um novo motor composto por dois codificadores de vídeo trabalhando em paralelo, com cada um fazendo metade do quadro e por fim enviando um stream 2x mais rápido do que a tecnologia presente nas placas antecessoras.
Além do hardware mais potente, a geração RTX 40 também introduz nas GeForce o codec AV1. Como já detalhamos nesse artigo, o AV1 é um padrão muito mais eficiente, conseguindo comprimir mais a imagem que o H.264 usado anteriormente no NVENC, e possibilitando ou melhorar a qualidade de imagem sem aumentar a largura de banda consumida, ou manter o mesmo nível de qualidade demandando menos da conexão com internet.
Com os dois motores de codificação operando em paralelo, o NVENC também ganhou mais versatilidade. Com os dois operando em conjunto, é possível codificar um vídeo em 8K@60fps, porém o NVENC de oitava geração das RTX 40 também pode ser usado de forma paralela, dando conta da codificação de 4 vídeos em 4K@60fps em paralelo.
NVENC foi atualizado e agora suporta o AV1, além de dar conta de 8K@60fps ou quatro vídeos em 4K@60fps em simultâneo
A GeForce RTX 4080 é baseada no chip AD104, com um total de 7680 núcleos CUDA, capazes de atingir 40 TFLOPS através do shadders, combinados com 60 núcleos RT da terceira geração da tecnologia da Nvidia, atingindo até 93 RT-TFLOPS e 240 núcleos tensores da quarta geração podendo operar em até 641 Tensor-FLOPS através da técnica de esparcividade (dispersividade).
Acompanhando a melhoria de outras placas da linha RTX 40, há uma grande quantidade de cache nível 2 (L2 cache). Enquanto a RTX 3080 Ti trazia aproximadamente 6MB de L2 cache, esse valor sobe para 49MB na RTX 4070 Ti. Falando em memórias, a RTX 4070 Ti traz 12GB GDDR6X em uma interface de 192-bit, operando em 10500MHz.
A RTX 4070 Ti é menos exigente que a 4080 e especialmente a 4090, mas ainda é uma placa de demanda alta de energia. Precisa de dois conectores de 8 pinos no padrão ATX 2.0 (o tradicional) ou um conector ATX 3.0 (também chamado PCIe 5.0) com 300W de alimentação. A fonte recomendada pela Nvidia é uma de 700W.
Mín. ° Máx. °