AkitaOnRails on Nostr: Esqueci de postar aqui, eu tinha postado no X essa semana: Pensei numa analogia pra ...
Esqueci de postar aqui, eu tinha postado no X essa semana:
Pensei numa analogia pra tentar explicar Deepseek. É uma otimização, não uma evolução.
A analogia é com formato de imagens. Pense num Chatgpt como uma foto 4K em formato RAW 12-bits teria algo em torno de 12 a 15 megabytes. Por isso só profissionais usam. porque a maioria das pessoas não sabe nem a diferença entre 8 bits de cor ou 12 bits, com ou sem HDR e assim por diante.
Pra maioria, um Jpeg da mesma foto, que ocuparia só 1 a 3 megabytes é mais que suficiente. Muitos não entendem pra que existe Raw que ocupa 5x ou até 10x mais espaço se dá pra deixar tudo em Jpeg.
Só profissional de imagem sabe como jpeg inutiliza a imagem e impede que ela seja trabalhada de verdade. quem edita em cima de jpeg é um amador.
Deepseek é tipo um Jpeg de Chatgpt. tem resultados similares usando menos processamento e menos espaço, mas é um trade off. nao existe almoço grátis. quando otimizamos alguma coisa trocamos uma coisa por outra. no caso trocamos precisão por processamento.
Pra maioria das pessoas menos precisão não faz diferença. porque o tipo de uso é tão simples que não precisa. mesmo motivo de porque pra maioria Jpeg é suficiente. A maioria das pessoas comuns não saberiam usar mais precisão.
Esqueçam benchmarks sintéticos, vocês não sabem interpretar os resultados. Só assumam o básico, Deepseek tem mesma ordem de grandeza de geração de um GPT O1 (o que é excelente) e implementa mais otimizações. A maioria que já conhecíamos. Não foi uma surpresa tão grande assim nao.
Não é uma revolução no sentido de ter inventado algum novo paradigma. Seria mais como um Chatgpt 4.5.
Como mencionei em outro reply, coisas como quantization e mixture of experts já era feito no mundo open source com todos is derivados e Llama faz templ.
Tem mérito o uso maior de RL em vez de SFT, que economiza a necessidade de datasets grandes. Mas de novo, é um upgrade incremental de otimização.
É só isso. não há nada de mágico. tem muita propaganda misturada. mas tecnicamente não é tudo isso.
Não entendi pq tem tanta gente enfatizando ser open source sendo que Llama da Meta e derivados sempre foram abertos.
Não entendi pq tem tanta gente impressionada que dá pra rodar em hardware barato sendo que desde Alpaca já se roda em Raspberry Pi ou smartphones.
E não acreditem nas afirmações sobre custos e pouco hardware. Ninguém sabe.
Pensei numa analogia pra tentar explicar Deepseek. É uma otimização, não uma evolução.
A analogia é com formato de imagens. Pense num Chatgpt como uma foto 4K em formato RAW 12-bits teria algo em torno de 12 a 15 megabytes. Por isso só profissionais usam. porque a maioria das pessoas não sabe nem a diferença entre 8 bits de cor ou 12 bits, com ou sem HDR e assim por diante.
Pra maioria, um Jpeg da mesma foto, que ocuparia só 1 a 3 megabytes é mais que suficiente. Muitos não entendem pra que existe Raw que ocupa 5x ou até 10x mais espaço se dá pra deixar tudo em Jpeg.
Só profissional de imagem sabe como jpeg inutiliza a imagem e impede que ela seja trabalhada de verdade. quem edita em cima de jpeg é um amador.
Deepseek é tipo um Jpeg de Chatgpt. tem resultados similares usando menos processamento e menos espaço, mas é um trade off. nao existe almoço grátis. quando otimizamos alguma coisa trocamos uma coisa por outra. no caso trocamos precisão por processamento.
Pra maioria das pessoas menos precisão não faz diferença. porque o tipo de uso é tão simples que não precisa. mesmo motivo de porque pra maioria Jpeg é suficiente. A maioria das pessoas comuns não saberiam usar mais precisão.
Esqueçam benchmarks sintéticos, vocês não sabem interpretar os resultados. Só assumam o básico, Deepseek tem mesma ordem de grandeza de geração de um GPT O1 (o que é excelente) e implementa mais otimizações. A maioria que já conhecíamos. Não foi uma surpresa tão grande assim nao.
Não é uma revolução no sentido de ter inventado algum novo paradigma. Seria mais como um Chatgpt 4.5.
Como mencionei em outro reply, coisas como quantization e mixture of experts já era feito no mundo open source com todos is derivados e Llama faz templ.
Tem mérito o uso maior de RL em vez de SFT, que economiza a necessidade de datasets grandes. Mas de novo, é um upgrade incremental de otimização.
É só isso. não há nada de mágico. tem muita propaganda misturada. mas tecnicamente não é tudo isso.
Não entendi pq tem tanta gente enfatizando ser open source sendo que Llama da Meta e derivados sempre foram abertos.
Não entendi pq tem tanta gente impressionada que dá pra rodar em hardware barato sendo que desde Alpaca já se roda em Raspberry Pi ou smartphones.
E não acreditem nas afirmações sobre custos e pouco hardware. Ninguém sabe.
quoting nevent1q…cq9xEsperando a única pessoa realmente QUALIFICADA para comentar toda essa história da DeepSeek. Sua deixa, AkitaOnRails (nprofile…k43k) !