Neural Network (Chat GPT): Difference between revisions
No edit summary |
No edit summary |
||
Line 1: | Line 1: | ||
Suuremahuline generatiivne pre-training mudel vestlusreaktsiooni loomiseks | |||
== Sissejuhatus == | == Sissejuhatus == | ||
Viimastel aastatel on tehtud märkimisväärseid edusamme vestluspõhise tehisintellekti süsteemide väljatöötamisel, mis suudavad mõista ja genereerida inimlikke reaktsioone. Üks lähenemine, mis on olnud eriti edukas, on generatiivsete eelkoolitusmudelite, nagu GPT ja GPT-2, kasutamine, mis on näidanud kvaliteetseid vastuseid paljudes vestlusülesannetes. Selles artiklis tutvustame ChatGPT-d, suuremahulist generatiivset eelkoolitusmudelit, mis on spetsiaalselt loodud vestlusreaktsiooni genereerimiseks. | |||
ChatGPT on koolitatud mitmesuguste vestlusandmete kogumitega, sealhulgas sotsiaalmeedia vestlused, klienditeeninduse dialoogid ja filmide stsenaariumid. Mudel põhineb trafo arhitektuuril, mis on osutunud väga tõhusaks keele kaugsõltuvuste tabamisel. Hindame ChatGPT-d mitme vestluse etaloni, sealhulgas Persona-Chati ja ConvAI2 andmekogumite põhjal, ning näitame, et see ületab olemasolevaid tipptasemel mudeleid nii sujuvuse kui ka sidususe poolest. | |||
Meie katsed näitavad ka, et ChatGPT on võimeline genereerima kvaliteetseid vastuseid mitmesugustes vestlusseadetes, sealhulgas avatud domeenis ja ülesandele orienteeritud dialoogides. Üldiselt näitavad meie tulemused, et ChatGPT kujutab endast olulist edasiminekut vestluspõhise AI-süsteemide arendamisel ja seda saab rakendada paljudes rakendustes. | |||
Revision as of 16:32, 10 May 2023
Suuremahuline generatiivne pre-training mudel vestlusreaktsiooni loomiseks
Sissejuhatus
Viimastel aastatel on tehtud märkimisväärseid edusamme vestluspõhise tehisintellekti süsteemide väljatöötamisel, mis suudavad mõista ja genereerida inimlikke reaktsioone. Üks lähenemine, mis on olnud eriti edukas, on generatiivsete eelkoolitusmudelite, nagu GPT ja GPT-2, kasutamine, mis on näidanud kvaliteetseid vastuseid paljudes vestlusülesannetes. Selles artiklis tutvustame ChatGPT-d, suuremahulist generatiivset eelkoolitusmudelit, mis on spetsiaalselt loodud vestlusreaktsiooni genereerimiseks.
ChatGPT on koolitatud mitmesuguste vestlusandmete kogumitega, sealhulgas sotsiaalmeedia vestlused, klienditeeninduse dialoogid ja filmide stsenaariumid. Mudel põhineb trafo arhitektuuril, mis on osutunud väga tõhusaks keele kaugsõltuvuste tabamisel. Hindame ChatGPT-d mitme vestluse etaloni, sealhulgas Persona-Chati ja ConvAI2 andmekogumite põhjal, ning näitame, et see ületab olemasolevaid tipptasemel mudeleid nii sujuvuse kui ka sidususe poolest.
Meie katsed näitavad ka, et ChatGPT on võimeline genereerima kvaliteetseid vastuseid mitmesugustes vestlusseadetes, sealhulgas avatud domeenis ja ülesandele orienteeritud dialoogides. Üldiselt näitavad meie tulemused, et ChatGPT kujutab endast olulist edasiminekut vestluspõhise AI-süsteemide arendamisel ja seda saab rakendada paljudes rakendustes.
Mis on Chat GPT?
Neural Network
?
Hello [1]
?
?
?
?
?
?
?
?
?
?
?
?
Kokkuvõte
Viited
"Language Models are Few-Shot Learners" by Tom B. Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, Sandhini Agarwal, Ariel Herbert-Voss, Gretchen Krueger, Tom Henighan, Rewon Child, Aditya Ramesh, Daniel M. Ziegler, Jeffrey Wu, Clemens Winter, Christopher Hesse, Mark Chen, Eric Sigler, Mateusz Litwin, Scott Gray, Benjamin Chess, Jack Clark, Christopher Berner, Sam McCandlish, Alec Radford, Ilya Sutskever, Dario Amodei. https://arxiv.org/abs/2005.14165
"Learning to Generate Conversational Responses with Neural Networks" by Iulian V. Serban, Alessandro Sordoni, Ryan Lowe, Laurent Charlin, Joelle Pineau, Aaron Courville, Yoshua Bengio. https://arxiv.org/abs/1506.05869
"DialoGPT: Large-Scale Generative Pre-training for Conversational Response Generation" by Yizhe Zhang, Siqi Sun, Michel Galley, Yen-Chun Chen, Chris Brockett, Xiang Gao, Jianfeng Gao, Jingjing Liu, Bill Dolan. https://arxiv.org/abs/1911.00536
"Conversational AI: The Science Behind the Alexa Prize" by Ashwin Ram, Rohit Prasad, Chandra Khatri, Anu Venkatesh, Raefer Gabriel, Qing Liu, Jeff Nunn, Behnam Hedayatnia, Ming Cheng, Ashish Nagar, Eric King, Kate Bland, Amanda Wartick, Michael Su, Jian Li, Arpit Gupta, Sai Prasad. https://arxiv.org/abs/1812.10757
"Dialogue Response Ranking Training with Large-Scale Human Feedback Data" by Wenpeng Yin, Stephen Roller, Emily Dinan, Angela Fan, Michael Auli, Jason Weston. https://arxiv.org/abs/2008.11512
"Language Models as Knowledge Bases?" by Fabio Petroni, Tim Rocktäschel, Patrick Lewis, Anton Bakhtin, Yuxiang Wu, Alexander H. Miller, Sebastian Riedel. https://arxiv.org/abs/2002.12327
"GPT-3: Language Models are Few-Shot Learners" by Tom B. Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, Sandhini Agarwal, Ariel Herbert-Voss, Gretchen Krueger, Tom Henighan, Rewon Child, Aditya Ramesh, Daniel M. Ziegler, Jeffrey Wu, Clemens Winter, Christopher Hesse, Mark Chen, Eric Sigler, Mateusz Litwin, Scott Gray, Benjamin Chess, Jack Clark, Christopher Berner, Sam McCandlish, Alec Radford, Ilya Sutskever, Dario Amodei. https://arxiv.org/abs/2005.14165