If deepseek did reinforcement learning over chain of thought reasoning to train r1… ...

2025-02-11 05:19:03

If deepseek did reinforcement learning over chain of thought reasoning to train r1… and alphago used reinforcement learning to find superhuman strategies in Go… maybe scaling up reinforcement learning on chain of thought reasoning will get us closer to superhuman reasoning and dare i say agi? Feels like we’re at the beginning of something huge.

Author Public Key

npub1xtscya34g58tk0z605fvr788k263gsu6cy9x0mhnm87echrgufzsevkk5s

Seen on

wss://nos.lol wss://nostr-pub.wellorder.net wss://offchain.pub wss://relay.nostr.band wss://relay.primal.net

Show more details

jb55 on Nostr: If deepseek did reinforcement learning over chain of thought reasoning to train r1… ...