DeepSeek R1 Explained
Τι ε?ναι αυτ? που κ?νει το ν?ο μοντ?λο τη? DeepSeek να ?χει τ?σο καλ?? επιδ?σει? χωρ?? την αν?γκη τερ?στια? επεξεργαστικ?? ισχ??;
Υπ?ρχουν 3 βασικ?? τεχνολογ?ε? π?σω απ? την επιτυχ?α του R1.
1.????? Chain of Thought
2.????? Reinforcement Learning
3.????? Model Distillation
Π?με να αναλ?σουμε την πρ?τη τεχνολογ?α Chain of Thought
Σε αυτ? το β?μα αναγκ?ζουμε το μοντ?λο μα? να μα? εξηγ?σει την διαδικασ?α που σκ?φτεται και προσπαθε? να λ?ση το πρ?βλημα step by step. Με αυτ?ν τον τρ?πο μπορο?με να δο?με τα β?ματα και τι? αποφ?σει? του μοντ?λου μα?, να βρο?με το λ?θο? στο σημε?ο που ?χει γ?νει και να δ?σουμε ?να feedback στο μοντ?λο ?στε να μην επαναλ?βει το λ?θο? του.
Για να το καταλ?βουμε καλυτ?ρα, δε?τε την λ?ση που δ?νει αυτ? η τεχνικ? στο παρακ?τω πρ?βλημα:
?πω? θα παρατηρ?σατε, το μοντ?λο σκ?φτεται ?πω? ?να? ?νθρωπο? και μ?λιστα με κ?κκινο, ?χει κ?νει και κ?ποια σχ?λια μ?λι? συνειδητοπο?ησε κ?τι ν?ο και μα? το εξηγε?.
?
Δε?τερη τεχνικ? Reinforcement Learning
Αν παρατηρ?σουμε ?να μωρ? να κ?νει τα πρ?τα του β?ματα, θα δο?με πω? στην αρχ? προσπαθε? να πι?σει οποιοδ?ποτε αντικε?μενο βρ?σκεται διπλ? του για να κρατ?σει ισορροπ?α και σιγ? σιγ? μαθα?νει απ? μ?νο του που να τοποθετ?σει τα π?δια και τα χ?ρια του ?στε να το πετ?χει χωρ?? την αν?γκη βοηθημ?των. Την ?δια τεχνικ? χρησιμοποιο?ν τα ρομπ?τ και τα αυτ?νομα οχ?ματα για να μ?θουν το περιβ?λλον του?. Αυτ?ν την ?δια τεχνικ? κ?νει χρ?ση και η DeepSeek. Ουσιαστικ? αντ? να δ?σει ?τοιμη την απ?ντηση σε μια ερ?τηση του χρ?στη (αυτ? θα χρειαζ?ταν τερ?στια β?ση δεδομ?νων και επεξεργαστικ? ισχ??) λ?ει στο μοντ?λο με χρ?ση Reinforcement Learning να κ?νει λ?θη και μ?σα απ? τα λ?θη να βρει την σωστ? απ?ντηση.
?πω? θα δο?με στην παρακ?τω εικ?να το μοντ?λο τη? DeepSeek ξεκιν?ει με αρκετ? λ?θη και με τον καιρ? βελτι?νεται σε αντ?θεση με το μοντ?λο τηε OpenAI (διακεκομμ?νε? γραμμ??) το οπο?ο ?χει μια σταθερ? απ?δοση καθ?? μα? δ?νει απευθε?α? την σωστ? απ?ντηση μ?σα απ? μια τερ?στια β?ση δεδομ?νων.
?
Αυτ? η τεχνικ? ?χει ?να πρ?βλημα, ?τι δεν μπορο?με να πο?με στο μοντ?λο πω? να σκεφτε? και αυτ?? ε?ναι ο λ?γο? που γ?νεται σε συνδυασμ? με την πρ?τη τεχνικ? Chain of Thought ?στε να κατευθ?νουμε το μοντ?λο προ? την κατε?θυνση που θ?λουμε. ?
Βλ?πουμε δηλαδ? τι? προσπ?θειε? που κ?νει ?και ?τι ε?ναι μακρι? απ? αυτ? που θ?λουμε, δ?νουμε ?να feedback ?στε να το κατευθ?νουμε προ? την σωστ? απ?ντηση.
Ο τρ?πο? με τον οπο?ο γ?νεται αυτ? η διαδικασ?α ε?ναι η παρακ?τω εξ?σωση:
Περισσ?τερα για την διαδικασ?α του Group Relative Policy Optimization (GRPO) μπορε?τε να βρε?τε εδ?:
Με απλ? λ?για η παραπ?νω εξ?σωση αυτ? που κ?νει ε?ναι να μα? δ?νει το ποσοστ? επιτυχ?α? μια? απ?ντηση, δηλαδ? π?σο κοντ? ε?ναι η απ?ντηση του μοντ?λου σε αυτ? που θ?λαμε. Ο τρ?πο? που το κ?νει ε?ναι να π?ρει τι? παλι?? απαντ?σει? (πρ?το κομμ?τι τη? συν?ρτηση?) να τι? συγκρ?νει με την ν?α απ?ντηση (δε?τερο κομμ?τι) και να δει αν τα π?γε καλ?τερα. Αν τα π?γε καλ?τερα κρατ?με την ν?α προσ?γγιση αν ?χι, δοκιμ?ζουμε μια ν?α προσ?γγιση.
Η τελευτα?α τεχνικ? που κ?νει χρ?ση η ?DeepSeek ονομ?ζεται Model Distillation ?που εδ? ?χουμε 2 μοντ?λα τον δ?σκαλο και τον μαθητ?.
Αυτ? η τεχνικ? πα?ρνει το μεγ?λο large language model (LLM) που ουσιαστικ? ε?ναι ο δ?σκαλο? και με αυτ? εκπαιδε?ει τον μαθητ? (σημαντικ? μικρ?τερο LLM μοντ?λο) πω? να δ?νει απαντ?σει? ?πω? ο δ?σκαλο?.? Σε αυτ?ν την περ?πτωση ο δ?σκαλο? δ?νει στον μαθητ? το πρ?βλημα μαζ? με παραδε?γματα τη? λ?ση? π?λι με Chain of Thought τεχνικ? και ?τσι ο μαθητ?? πα?ρνει α? πο?με μασημ?νη τροφ? και ε?ναι σε θ?ση με λιγ?τερη επεξεργαστικ? ισχ?? να δ?σει μια απ?ντηση που πολλ?? φορ?? ξεπερν?ει ακ?μη και τον δ?σκαλο.
Με αυτ?? τι? 3 τεχνικ?? η DeepSeek μπορε? να πετ?χει απαντ?σει? που ?λλα μοντ?λα χρει?ζονται μεγαλ?τερη επεξεργαστικ? ισχ??.
CTO at Peratech Holdco Limited - Technology Leader, Team Builder, Thin Film and Printed Electronics Expert
1 个月?μω? γιατ? OpenAI δεν μπορε? να κ?νει ακριβ?? το ?διο πρ?γμα;