DeepSeek R1 Explained

DeepSeek R1 Explained

Τι ε?ναι αυτ? που κ?νει το ν?ο μοντ?λο τη? DeepSeek να ?χει τ?σο καλ?? επιδ?σει? χωρ?? την αν?γκη τερ?στια? επεξεργαστικ?? ισχ??;

Υπ?ρχουν 3 βασικ?? τεχνολογ?ε? π?σω απ? την επιτυχ?α του R1.

1.????? Chain of Thought

2.????? Reinforcement Learning

3.????? Model Distillation


Π?με να αναλ?σουμε την πρ?τη τεχνολογ?α Chain of Thought

Σε αυτ? το β?μα αναγκ?ζουμε το μοντ?λο μα? να μα? εξηγ?σει την διαδικασ?α που σκ?φτεται και προσπαθε? να λ?ση το πρ?βλημα step by step. Με αυτ?ν τον τρ?πο μπορο?με να δο?με τα β?ματα και τι? αποφ?σει? του μοντ?λου μα?, να βρο?με το λ?θο? στο σημε?ο που ?χει γ?νει και να δ?σουμε ?να feedback στο μοντ?λο ?στε να μην επαναλ?βει το λ?θο? του.

Για να το καταλ?βουμε καλυτ?ρα, δε?τε την λ?ση που δ?νει αυτ? η τεχνικ? στο παρακ?τω πρ?βλημα:

?πω? θα παρατηρ?σατε, το μοντ?λο σκ?φτεται ?πω? ?να? ?νθρωπο? και μ?λιστα με κ?κκινο, ?χει κ?νει και κ?ποια σχ?λια μ?λι? συνειδητοπο?ησε κ?τι ν?ο και μα? το εξηγε?.

?

Δε?τερη τεχνικ? Reinforcement Learning

Αν παρατηρ?σουμε ?να μωρ? να κ?νει τα πρ?τα του β?ματα, θα δο?με πω? στην αρχ? προσπαθε? να πι?σει οποιοδ?ποτε αντικε?μενο βρ?σκεται διπλ? του για να κρατ?σει ισορροπ?α και σιγ? σιγ? μαθα?νει απ? μ?νο του που να τοποθετ?σει τα π?δια και τα χ?ρια του ?στε να το πετ?χει χωρ?? την αν?γκη βοηθημ?των. Την ?δια τεχνικ? χρησιμοποιο?ν τα ρομπ?τ και τα αυτ?νομα οχ?ματα για να μ?θουν το περιβ?λλον του?. Αυτ?ν την ?δια τεχνικ? κ?νει χρ?ση και η DeepSeek. Ουσιαστικ? αντ? να δ?σει ?τοιμη την απ?ντηση σε μια ερ?τηση του χρ?στη (αυτ? θα χρειαζ?ταν τερ?στια β?ση δεδομ?νων και επεξεργαστικ? ισχ??) λ?ει στο μοντ?λο με χρ?ση Reinforcement Learning να κ?νει λ?θη και μ?σα απ? τα λ?θη να βρει την σωστ? απ?ντηση.

?πω? θα δο?με στην παρακ?τω εικ?να το μοντ?λο τη? DeepSeek ξεκιν?ει με αρκετ? λ?θη και με τον καιρ? βελτι?νεται σε αντ?θεση με το μοντ?λο τηε OpenAI (διακεκομμ?νε? γραμμ??) το οπο?ο ?χει μια σταθερ? απ?δοση καθ?? μα? δ?νει απευθε?α? την σωστ? απ?ντηση μ?σα απ? μια τερ?στια β?ση δεδομ?νων.

?

Αυτ? η τεχνικ? ?χει ?να πρ?βλημα, ?τι δεν μπορο?με να πο?με στο μοντ?λο πω? να σκεφτε? και αυτ?? ε?ναι ο λ?γο? που γ?νεται σε συνδυασμ? με την πρ?τη τεχνικ? Chain of Thought ?στε να κατευθ?νουμε το μοντ?λο προ? την κατε?θυνση που θ?λουμε. ?

Βλ?πουμε δηλαδ? τι? προσπ?θειε? που κ?νει ?και ?τι ε?ναι μακρι? απ? αυτ? που θ?λουμε, δ?νουμε ?να feedback ?στε να το κατευθ?νουμε προ? την σωστ? απ?ντηση.

Ο τρ?πο? με τον οπο?ο γ?νεται αυτ? η διαδικασ?α ε?ναι η παρακ?τω εξ?σωση:

Περισσ?τερα για την διαδικασ?α του Group Relative Policy Optimization (GRPO) μπορε?τε να βρε?τε εδ?:

https://arxiv.org/pdf/2402.03300

Με απλ? λ?για η παραπ?νω εξ?σωση αυτ? που κ?νει ε?ναι να μα? δ?νει το ποσοστ? επιτυχ?α? μια? απ?ντηση, δηλαδ? π?σο κοντ? ε?ναι η απ?ντηση του μοντ?λου σε αυτ? που θ?λαμε. Ο τρ?πο? που το κ?νει ε?ναι να π?ρει τι? παλι?? απαντ?σει? (πρ?το κομμ?τι τη? συν?ρτηση?) να τι? συγκρ?νει με την ν?α απ?ντηση (δε?τερο κομμ?τι) και να δει αν τα π?γε καλ?τερα. Αν τα π?γε καλ?τερα κρατ?με την ν?α προσ?γγιση αν ?χι, δοκιμ?ζουμε μια ν?α προσ?γγιση.

Η τελευτα?α τεχνικ? που κ?νει χρ?ση η ?DeepSeek ονομ?ζεται Model Distillation ?που εδ? ?χουμε 2 μοντ?λα τον δ?σκαλο και τον μαθητ?.

Αυτ? η τεχνικ? πα?ρνει το μεγ?λο large language model (LLM) που ουσιαστικ? ε?ναι ο δ?σκαλο? και με αυτ? εκπαιδε?ει τον μαθητ? (σημαντικ? μικρ?τερο LLM μοντ?λο) πω? να δ?νει απαντ?σει? ?πω? ο δ?σκαλο?.? Σε αυτ?ν την περ?πτωση ο δ?σκαλο? δ?νει στον μαθητ? το πρ?βλημα μαζ? με παραδε?γματα τη? λ?ση? π?λι με Chain of Thought τεχνικ? και ?τσι ο μαθητ?? πα?ρνει α? πο?με μασημ?νη τροφ? και ε?ναι σε θ?ση με λιγ?τερη επεξεργαστικ? ισχ?? να δ?σει μια απ?ντηση που πολλ?? φορ?? ξεπερν?ει ακ?μη και τον δ?σκαλο.

Με αυτ?? τι? 3 τεχνικ?? η DeepSeek μπορε? να πετ?χει απαντ?σει? που ?λλα μοντ?λα χρει?ζονται μεγαλ?τερη επεξεργαστικ? ισχ??.

Tolis Voutsas

CTO at Peratech Holdco Limited - Technology Leader, Team Builder, Thin Film and Printed Electronics Expert

1 个月

?μω? γιατ? OpenAI δεν μπορε? να κ?νει ακριβ?? το ?διο πρ?γμα;

要查看或添加评论,请登录

George Koutsoudakis的更多文章

  • Great Depression & World War II

    Great Depression & World War II

    The Great Depression Η μεγ?λη κρ?ση του 1929 ?ταν η μεγαλ?τερη οικονομικ? κρ?ση στην σ?γχρονη ιστορ?α. ?πω? και στην…

    4 条评论
  • Large Language Models for Βeginners

    Large Language Models for Βeginners

    Α? υποθ?σουμε ?τι ?χετε λ?βει μια ερ?τηση απ? ?ναν ?νθρωπο και η απ?ντηση απ? το ChatGPT λε?πει. Πω? θα βρε?τε την…

  • Unmasking AI: The Hype, The Wash, and The Fakery

    Unmasking AI: The Hype, The Wash, and The Fakery

    Εισαγωγ? Το 2021 ιδρ?σαμε την Smiling Machines ξεκιν?ντα? με project προβλεπτικ?? συντ?ρηση? με χρ?ση Machine και Deep…

    8 条评论
  • Γιατ? ?λοι τα ?χουν β?λει με την Κ?να;

    Γιατ? ?λοι τα ?χουν β?λει με την Κ?να;

    Εισαγωγ? Τι? τελευτα?ε? δυο δεκαετ?ε? ?χουμε συνηθ?σει να βλ?πουμε σε ηλεκτρονικ? προ??ντα, ηλεκτρικ?? συσκευ?? και…

    1 条评论
  • Γιατ? η Ευρ?πη ?χασε το παιχν?δι τη? τεχνολογ?α?;

    Γιατ? η Ευρ?πη ?χασε το παιχν?δι τη? τεχνολογ?α?;

    Παρακ?τω θα δο?με τι? 10 μεγαλ?τερε? εταιρ?ε? τεχνολογ?α? στον κ?σμο. ?πω? θα δο?με το 80% ε?ναι Αμερικ?νικε? εταιρ?ε?…

    5 条评论
  • The Zero Day Market

    The Zero Day Market

    Πω? χακ?ρει? κ?τι; ?λοι ?χουμε δει ταιν?ε?, οπ?τε ?λοι ξ?ρουμε πω? γ?νεται το hacking. Κ?ποιο? τ?πο? με τρελ?? γν?σει?…

    2 条评论
  • Γιατ? οι εταιρ?ε? αγαπ?νε τα προσωπικ? μα? δεδομ?να;

    Γιατ? οι εταιρ?ε? αγαπ?νε τα προσωπικ? μα? δεδομ?να;

    Εισαγωγ? Σ?γουρα θα ?χετε ακο?σει εκφρ?σει? ?πω?: Μα? παρακολουθο?ν, μα? ακο?νε, μα? βλ?πουν, μα? ελ?γχουν και ?λλα…

  • “Singularities don’t exist”

    “Singularities don’t exist”

    “Singularities don’t exist,” claims black hole pioneer Roy Kerr The brilliant mind who discovered the spacetime…

  • A Guide to Organizational Adaptability in the Gig Economy Era

    A Guide to Organizational Adaptability in the Gig Economy Era

    Navigating Unchartered Waters: A Guide to Organizational Adaptability in the Gig Economy Era In our quest for…

  • What worries me most about our economy

    What worries me most about our economy

    What worries me most about our economy I don't know what might happen in the future, nor do I try to make any…