Kemajuan terbaru di bidang kecerdasan buatan dianggap oleh beberapa orang sebagai revolusi industri keempat. Munculnya model bahasa besar secara signifikan meningkatkan efisiensi di berbagai sektor, dan Boston Consulting Group memperkirakan bahwa GPT telah meningkatkan efisiensi kerja di AS sekitar 20%. Pada saat yang sama, kemampuan generalisasi yang dibawa oleh model besar dianggap sebagai paradigma desain perangkat lunak yang baru. Di masa lalu, desain perangkat lunak adalah kode yang tepat, sedangkan desain perangkat lunak saat ini adalah kerangka model besar yang lebih umum yang disematkan ke dalam perangkat lunak, yang mampu memberikan kinerja lebih baik dan mendukung masukan dan keluaran modal yang lebih luas. Teknologi pembelajaran mendalam memang telah membawa kemakmuran keempat bagi industri AI, dan gelombang ini juga telah merambah ke industri cryptocurrency.
Laporan ini akan membahas secara rinci tentang sejarah perkembangan industri AI, klasifikasi teknologi, serta dampak penemuan teknologi pembelajaran mendalam terhadap industri. Selanjutnya, akan dianalisis secara mendalam rantai pasok hulu dan hilir dalam pembelajaran mendalam, termasuk GPU, komputasi awan, sumber data, dan perangkat tepi, serta keadaan dan tren perkembangannya. Setelah itu, kita akan membahas secara mendalam hubungan antara cryptocurrency dan industri AI, serta merangkum pola rantai industri AI yang terkait dengan cryptocurrency.
Perkembangan Industri AI
Industri AI dimulai pada tahun 1950-an. Untuk mewujudkan visi kecerdasan buatan, akademisi dan industri di berbagai era dan latar belakang disiplin yang berbeda telah mengembangkan banyak aliran untuk merealisasikan kecerdasan buatan.
Teknologi kecerdasan buatan modern terutama menggunakan istilah "pembelajaran mesin", di mana ide dari teknologi ini adalah untuk membiarkan mesin mengandalkan data untuk berulang kali mengiterasi dalam tugas untuk meningkatkan kinerja sistem. Langkah utama adalah mengirimkan data ke algoritma, menggunakan data ini untuk melatih model, menguji dan menerapkan model, serta menggunakan model untuk menyelesaikan tugas prediksi secara otomatis.
Saat ini, ada tiga aliran utama dalam pembelajaran mesin, yaitu koneksionisme, simbolisme, dan behaviorisme, yang masing-masing meniru sistem saraf manusia, pemikiran, dan perilaku.
Saat ini, koneksionisme yang diwakili oleh jaringan saraf mendominasi ( juga dikenal sebagai pembelajaran mendalam ), alasan utamanya adalah karena arsitektur ini memiliki satu lapisan input, satu lapisan output, tetapi memiliki beberapa lapisan tersembunyi. Begitu jumlah lapisan dan neuron ( serta parameter ) menjadi cukup banyak, maka ada cukup peluang untuk menyesuaikan tugas umum yang kompleks. Melalui input data, parameter neuron dapat terus disesuaikan, sehingga setelah melalui banyak data, neuron tersebut akan mencapai keadaan optimal ( parameter ), inilah yang kita sebut sebagai keajaiban dari kerja keras, dan ini juga merupakan asal usul dari kata "dalam" - jumlah lapisan dan neuron yang cukup banyak.
Sebagai contoh sederhana, dapat dipahami sebagai konstruksi sebuah fungsi, di mana jika kita memasukkan X=2, maka Y=3; jika X=3, maka Y=5. Jika kita ingin fungsi ini berlaku untuk semua X, maka kita perlu terus menambahkan derajat fungsi ini dan parameternya. Misalnya, saat ini saya dapat membangun fungsi yang memenuhi kondisi ini yaitu Y = 2X -1, tetapi jika ada data di mana X=2, Y=11, maka kita perlu membangun kembali fungsi yang cocok untuk ketiga titik data ini. Menggunakan GPU untuk brute force menemukan Y = X2 -3X +5, cukup sesuai, tetapi tidak perlu sepenuhnya cocok dengan data, hanya perlu mematuhi keseimbangan, output yang kira-kira mirip sudah cukup. Di sini X2, X, dan X0 mewakili neuron yang berbeda, sedangkan 1, -3, 5 adalah parameternya.
Saat ini, jika kita memasukkan sejumlah besar data ke dalam jaringan saraf, kita dapat menambah neuron dan mengiterasi parameter untuk menyesuaikan data baru. Dengan cara ini, kita dapat menyesuaikan semua data.
Teknologi pembelajaran dalam yang berbasis jaringan saraf juga mengalami beberapa iterasi dan evolusi teknis, seperti jaringan saraf awal di atas, jaringan saraf feedforward, RNN, CNN, GAN, yang akhirnya berevolusi menjadi model besar modern seperti teknologi Transformer yang digunakan dalam GPT, teknologi Transformer hanyalah salah satu arah evolusi jaringan saraf, yang menambahkan sebuah konverter (Transformer), untuk mengkodekan semua modalitas ( seperti audio, video, gambar, dll ) menjadi nilai numerik yang sesuai untuk merepresentasikannya. Kemudian inputkan ke dalam jaringan saraf, sehingga jaringan saraf dapat memodelkan jenis data apa pun, yaitu merealisasikan multimodal.
Perkembangan AI telah mengalami tiga gelombang teknologi. Gelombang pertama terjadi pada tahun 1960-an, yaitu sepuluh tahun setelah teknologi AI diperkenalkan. Gelombang ini disebabkan oleh perkembangan teknologi simbolis, yang menyelesaikan masalah pemrosesan bahasa alami secara umum serta dialog antara manusia dan mesin. Pada periode yang sama, sistem pakar lahir, yaitu sistem pakar DENRAL yang diselesaikan di bawah dorongan NASA oleh Universitas Stanford, yang memiliki pengetahuan kimia yang sangat kuat. Sistem ini melakukan inferensi melalui pertanyaan untuk menghasilkan jawaban yang setara dengan seorang ahli kimia. Sistem pakar kimia ini dapat dianggap sebagai kombinasi dari basis pengetahuan kimia dan sistem inferensi.
Setelah sistem pakar, pada tahun 1990-an, ilmuwan dan filsuf Amerika keturunan Israel, Judea Pearl(, mengajukan jaringan Bayesian, yang juga dikenal sebagai jaringan keyakinan. Pada waktu yang sama, Brooks mengusulkan robotika berbasis perilaku, menandai lahirnya behaviorisme.
Pada tahun 1997, IBM Deep Blue mengalahkan juara catur Kasparov dengan skor 3.5:2.5, kemenangan ini dianggap sebagai tonggak sejarah dalam kecerdasan buatan, teknologi AI memasuki puncak perkembangan kedua.
Gelombang ketiga teknologi AI terjadi pada tahun 2006. Tiga raja deep learning, Yann LeCun, Geoffrey Hinton, dan Yoshua Bengio, mengemukakan konsep deep learning, sebuah algoritma yang menggunakan jaringan saraf buatan sebagai arsitektur untuk pembelajaran representasi data. Setelah itu, algoritma deep learning perlahan-lahan berkembang, dari RNN, GAN hingga Transformer dan Stable Diffusion, kedua algoritma ini bersama-sama membentuk gelombang teknologi ketiga ini, dan ini juga merupakan masa kejayaan koneksionisme.
Banyak peristiwa ikonik juga muncul seiring dengan eksplorasi dan evolusi teknologi pembelajaran mendalam, termasuk:
Pada tahun 2011, Watson) dari IBM mengalahkan manusia dan memenangkan kejuaraan dalam acara kuis "Jeopardy(".
Pada tahun 2014, Goodfellow mengusulkan GAN) Jaringan Adversarial Generatif, Generative Adversarial Network(, yang dapat menghasilkan foto yang menyerupai yang asli dengan cara membiarkan dua jaringan saraf saling berkompetisi dalam pembelajaran. Selain itu, Goodfellow juga menulis sebuah buku berjudul "Deep Learning", yang dikenal sebagai buku bunga, merupakan salah satu buku pengantar penting di bidang pembelajaran mendalam.
Pada tahun 2015, Hinton dan kawan-kawan mengajukan algoritma pembelajaran mendalam dalam jurnal "Nature", pengajuan metode pembelajaran mendalam ini segera memicu respons besar di kalangan akademis dan industri.
Pada tahun 2015, OpenAI didirikan, Musk, Presiden YC Altman, dan investor malaikat Peter Thiel ) Peter Thiel ( dan lainnya mengumumkan investasi bersama sebesar 1 miliar dolar.
Pada tahun 2016, AlphaGo yang berbasis pada teknologi deep learning bertanding melawan juara dunia Go, pemain profesional sembilan dan Lee Sedol, dengan mengalahkan dengan skor total 4-1.
Pada tahun 2017, Hanson Robotics ) yang berbasis di Hong Kong, China, mengembangkan robot humanoid bernama Sophia, yang dikenal sebagai robot pertama dalam sejarah yang mendapatkan status sebagai warga negara, memiliki ekspresi wajah yang kaya serta kemampuan memahami bahasa manusia.
Pada tahun 2017, Google yang memiliki banyak talenta dan cadangan teknologi di bidang kecerdasan buatan menerbitkan makalah berjudul "Attention is all you need" yang memperkenalkan algoritma Transformer, model bahasa berskala besar mulai muncul.
Pada tahun 2018, OpenAI meluncurkan GPT( Generative Pre-trained Transformer) yang dibangun berdasarkan algoritma Transformer, yang merupakan salah satu model bahasa terbesar pada saat itu.
Pada tahun 2018, tim Google Deepmind merilis AlphaGo yang berbasis pembelajaran mendalam, mampu memprediksi struktur protein, dianggap sebagai tanda kemajuan besar di bidang kecerdasan buatan.
Pada tahun 2019, OpenAI merilis GPT-2, model ini memiliki 1,5 miliar parameter.
Pada tahun 2020, OpenAI mengembangkan GPT-3, yang memiliki 175 miliar parameter, 100 kali lebih banyak daripada versi sebelumnya GPT-2. Model ini dilatih menggunakan 570GB teks dan dapat mencapai kinerja terdepan dalam berbagai tugas NLP(, termasuk menjawab pertanyaan, menerjemahkan, dan menulis artikel).
Pada tahun 2021, OpenAI merilis GPT-4, model ini memiliki 1,76 triliun parameter, sepuluh kali lipat dari GPT-3.
Aplikasi ChatGPT berbasis model GPT-4 diluncurkan pada Januari 2023, dan pada bulan Maret ChatGPT mencapai seratus juta pengguna, menjadi aplikasi yang paling cepat dalam sejarah mencapai seratus juta pengguna.
Pada tahun 2024, OpenAI meluncurkan GPT-4 omni.
Catatan: Karena ada banyak makalah tentang kecerdasan buatan, banyak aliran, dan evolusi teknologi yang bervariasi, di sini kami terutama mengikuti sejarah perkembangan pembelajaran mendalam atau koneksionisme, sementara aliran dan teknologi lainnya masih dalam proses perkembangan yang pesat.
Rantai industri pembelajaran mendalam
Model bahasa besar saat ini semuanya menggunakan metode pembelajaran mendalam berbasis jaringan saraf. Dengan GPT sebagai pemimpin, model besar telah menciptakan gelombang baru dalam kecerdasan buatan, banyak pemain yang masuk ke jalur ini, dan kami juga menemukan bahwa permintaan pasar terhadap data dan daya komputasi meningkat pesat. Oleh karena itu, dalam bagian laporan ini, kami terutama mengeksplorasi rantai industri algoritma pembelajaran mendalam, bagaimana hulu dan hilir terbentuk di industri AI yang didominasi oleh algoritma pembelajaran mendalam, serta bagaimana kondisi dan hubungan penawaran dan permintaan di hulu dan hilir, serta perkembangan masa depan.
Pertama-tama, kita perlu menjelaskan bahwa dalam melakukan pelatihan model besar LLMs yang dipimpin oleh GPT berbasis teknologi Transformer(, ada tiga langkah yang harus diikuti.
Sebelum pelatihan, karena berbasis Transformer, maka konverter perlu mengubah input teks menjadi nilai, proses ini disebut "Tokenization", setelah itu nilai-nilai ini disebut Token. Dalam aturan umum, satu kata atau karakter dalam bahasa Inggris bisa dianggap sebagai satu Token, sedangkan setiap karakter Han bisa dianggap sebagai dua Token. Ini juga merupakan satuan dasar yang digunakan dalam penilaian GPT.
Langkah pertama, pra-pelatihan. Dengan memberikan cukup banyak pasangan data ke lapisan input, seperti yang dicontohkan pada bagian pertama laporan )X,Y(, untuk mencari parameter terbaik setiap neuron di bawah model tersebut, pada saat ini diperlukan banyak data, dan proses ini juga merupakan proses yang paling menghabiskan daya komputasi, karena harus mengulangi iterasi neuron mencoba berbagai parameter. Setelah satu batch pasangan data selesai dilatih, biasanya akan digunakan batch data yang sama untuk pelatihan kedua guna mengiterasi parameter.
Langkah kedua, fine-tuning. Fine-tuning adalah memberikan sejumlah kecil data yang berkualitas sangat tinggi untuk melatih, perubahan semacam ini akan membuat output model memiliki kualitas yang lebih tinggi, karena pre-training membutuhkan banyak data, tetapi banyak data mungkin mengandung kesalahan atau berkualitas rendah. Langkah fine-tuning dapat meningkatkan kualitas model melalui data berkualitas tinggi.
Langkah ketiga, pembelajaran penguatan. Pertama, akan dibangun model baru yang kami sebut "model penghargaan", tujuan dari model ini sangat sederhana, yaitu untuk mengurutkan hasil keluaran, sehingga implementasi model ini cukup mudah karena skenario bisnisnya cukup vertikal. Setelah itu, model ini digunakan untuk menentukan apakah keluaran dari model besar kami berkualitas tinggi, sehingga kami dapat menggunakan model penghargaan untuk secara otomatis mengiterasi parameter model besar. ) Namun terkadang juga diperlukan keterlibatan manusia untuk menilai kualitas keluaran model (.
Singkatnya, dalam proses pelatihan model besar, pra-pelatihan memiliki tuntutan yang sangat tinggi terhadap jumlah data, dan daya komputasi GPU yang dibutuhkan juga yang paling banyak, sedangkan penyetelan memerlukan data berkualitas lebih tinggi untuk memperbaiki parameter, pembelajaran penguatan dapat mengulangi parameter melalui model penghargaan untuk menghasilkan hasil yang lebih berkualitas.
Dalam proses pelatihan, semakin banyak parameter, semakin tinggi batas kemampuan generalisasinya. Misalnya, dalam contoh fungsi Y = aX + b, sebenarnya ada dua neuron, yaitu X dan X0. Oleh karena itu, bagaimana parameter berubah, data yang dapat diusulkan sangat terbatas, karena pada dasarnya itu tetap merupakan garis lurus. Jika neuron semakin banyak, maka lebih banyak parameter dapat diiterasi, yang memungkinkan untuk mengusulkan lebih banyak data. Inilah sebabnya mengapa model besar dapat menghasilkan keajaiban, dan ini juga alasan mengapa secara umum disebut model besar, pada dasarnya terdiri dari sejumlah besar neuron dan parameter, serta sejumlah besar data, dan pada saat yang sama memerlukan daya komputasi yang besar.
Oleh karena itu, kinerja model besar ditentukan oleh tiga aspek utama, yaitu jumlah parameter, jumlah dan kualitas data, serta kekuatan komputasi. Ketiga hal ini secara bersama-sama mempengaruhi kualitas hasil dan kemampuan generalisasi model besar. Kita anggap jumlah parameter adalah p, jumlah data adalah n) yang dihitung berdasarkan jumlah Token(, maka kita dapat menghitung jumlah komputasi yang diperlukan dengan menggunakan aturan pengalaman umum, sehingga kita bisa memperkirakan kira-kira kekuatan komputasi yang perlu dibeli serta waktu pelatihan.
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
8 Suka
Hadiah
8
5
Bagikan
Komentar
0/400
DataBartender
· 3jam yang lalu
Zeh, ini adalah mainan baru untuk play people for suckers.
Lihat AsliBalas0
ForkPrince
· 6jam yang lalu
Jangan bercanda, ini hanya programmer yang mengganti kulit.
Lihat AsliBalas0
BoredRiceBall
· 08-04 00:54
Ah, ai datang lagi untuk merebut pekerjaan.
Lihat AsliBalas0
Rugpull幸存者
· 08-04 00:50
Orang alat sedang dihapuskan
Lihat AsliBalas0
AltcoinOracle
· 08-04 00:45
menarik... analisis saya menunjukkan korelasi yang jelas sebesar 92,7% antara pergeseran paradigma AI dan pasar kripto fraktal. seperti yang diprediksi dalam teks kuno
Perkembangan AI: Dari Awal Hingga Terobosan Kemampuan Generalisasi Model Besar
Perkembangan Industri AI: Dari Awal Hingga Puncak
Kemajuan terbaru di bidang kecerdasan buatan dianggap oleh beberapa orang sebagai revolusi industri keempat. Munculnya model bahasa besar secara signifikan meningkatkan efisiensi di berbagai sektor, dan Boston Consulting Group memperkirakan bahwa GPT telah meningkatkan efisiensi kerja di AS sekitar 20%. Pada saat yang sama, kemampuan generalisasi yang dibawa oleh model besar dianggap sebagai paradigma desain perangkat lunak yang baru. Di masa lalu, desain perangkat lunak adalah kode yang tepat, sedangkan desain perangkat lunak saat ini adalah kerangka model besar yang lebih umum yang disematkan ke dalam perangkat lunak, yang mampu memberikan kinerja lebih baik dan mendukung masukan dan keluaran modal yang lebih luas. Teknologi pembelajaran mendalam memang telah membawa kemakmuran keempat bagi industri AI, dan gelombang ini juga telah merambah ke industri cryptocurrency.
Laporan ini akan membahas secara rinci tentang sejarah perkembangan industri AI, klasifikasi teknologi, serta dampak penemuan teknologi pembelajaran mendalam terhadap industri. Selanjutnya, akan dianalisis secara mendalam rantai pasok hulu dan hilir dalam pembelajaran mendalam, termasuk GPU, komputasi awan, sumber data, dan perangkat tepi, serta keadaan dan tren perkembangannya. Setelah itu, kita akan membahas secara mendalam hubungan antara cryptocurrency dan industri AI, serta merangkum pola rantai industri AI yang terkait dengan cryptocurrency.
Perkembangan Industri AI
Industri AI dimulai pada tahun 1950-an. Untuk mewujudkan visi kecerdasan buatan, akademisi dan industri di berbagai era dan latar belakang disiplin yang berbeda telah mengembangkan banyak aliran untuk merealisasikan kecerdasan buatan.
Teknologi kecerdasan buatan modern terutama menggunakan istilah "pembelajaran mesin", di mana ide dari teknologi ini adalah untuk membiarkan mesin mengandalkan data untuk berulang kali mengiterasi dalam tugas untuk meningkatkan kinerja sistem. Langkah utama adalah mengirimkan data ke algoritma, menggunakan data ini untuk melatih model, menguji dan menerapkan model, serta menggunakan model untuk menyelesaikan tugas prediksi secara otomatis.
Saat ini, ada tiga aliran utama dalam pembelajaran mesin, yaitu koneksionisme, simbolisme, dan behaviorisme, yang masing-masing meniru sistem saraf manusia, pemikiran, dan perilaku.
Saat ini, koneksionisme yang diwakili oleh jaringan saraf mendominasi ( juga dikenal sebagai pembelajaran mendalam ), alasan utamanya adalah karena arsitektur ini memiliki satu lapisan input, satu lapisan output, tetapi memiliki beberapa lapisan tersembunyi. Begitu jumlah lapisan dan neuron ( serta parameter ) menjadi cukup banyak, maka ada cukup peluang untuk menyesuaikan tugas umum yang kompleks. Melalui input data, parameter neuron dapat terus disesuaikan, sehingga setelah melalui banyak data, neuron tersebut akan mencapai keadaan optimal ( parameter ), inilah yang kita sebut sebagai keajaiban dari kerja keras, dan ini juga merupakan asal usul dari kata "dalam" - jumlah lapisan dan neuron yang cukup banyak.
Sebagai contoh sederhana, dapat dipahami sebagai konstruksi sebuah fungsi, di mana jika kita memasukkan X=2, maka Y=3; jika X=3, maka Y=5. Jika kita ingin fungsi ini berlaku untuk semua X, maka kita perlu terus menambahkan derajat fungsi ini dan parameternya. Misalnya, saat ini saya dapat membangun fungsi yang memenuhi kondisi ini yaitu Y = 2X -1, tetapi jika ada data di mana X=2, Y=11, maka kita perlu membangun kembali fungsi yang cocok untuk ketiga titik data ini. Menggunakan GPU untuk brute force menemukan Y = X2 -3X +5, cukup sesuai, tetapi tidak perlu sepenuhnya cocok dengan data, hanya perlu mematuhi keseimbangan, output yang kira-kira mirip sudah cukup. Di sini X2, X, dan X0 mewakili neuron yang berbeda, sedangkan 1, -3, 5 adalah parameternya.
Saat ini, jika kita memasukkan sejumlah besar data ke dalam jaringan saraf, kita dapat menambah neuron dan mengiterasi parameter untuk menyesuaikan data baru. Dengan cara ini, kita dapat menyesuaikan semua data.
Teknologi pembelajaran dalam yang berbasis jaringan saraf juga mengalami beberapa iterasi dan evolusi teknis, seperti jaringan saraf awal di atas, jaringan saraf feedforward, RNN, CNN, GAN, yang akhirnya berevolusi menjadi model besar modern seperti teknologi Transformer yang digunakan dalam GPT, teknologi Transformer hanyalah salah satu arah evolusi jaringan saraf, yang menambahkan sebuah konverter (Transformer), untuk mengkodekan semua modalitas ( seperti audio, video, gambar, dll ) menjadi nilai numerik yang sesuai untuk merepresentasikannya. Kemudian inputkan ke dalam jaringan saraf, sehingga jaringan saraf dapat memodelkan jenis data apa pun, yaitu merealisasikan multimodal.
Perkembangan AI telah mengalami tiga gelombang teknologi. Gelombang pertama terjadi pada tahun 1960-an, yaitu sepuluh tahun setelah teknologi AI diperkenalkan. Gelombang ini disebabkan oleh perkembangan teknologi simbolis, yang menyelesaikan masalah pemrosesan bahasa alami secara umum serta dialog antara manusia dan mesin. Pada periode yang sama, sistem pakar lahir, yaitu sistem pakar DENRAL yang diselesaikan di bawah dorongan NASA oleh Universitas Stanford, yang memiliki pengetahuan kimia yang sangat kuat. Sistem ini melakukan inferensi melalui pertanyaan untuk menghasilkan jawaban yang setara dengan seorang ahli kimia. Sistem pakar kimia ini dapat dianggap sebagai kombinasi dari basis pengetahuan kimia dan sistem inferensi.
Setelah sistem pakar, pada tahun 1990-an, ilmuwan dan filsuf Amerika keturunan Israel, Judea Pearl(, mengajukan jaringan Bayesian, yang juga dikenal sebagai jaringan keyakinan. Pada waktu yang sama, Brooks mengusulkan robotika berbasis perilaku, menandai lahirnya behaviorisme.
Pada tahun 1997, IBM Deep Blue mengalahkan juara catur Kasparov dengan skor 3.5:2.5, kemenangan ini dianggap sebagai tonggak sejarah dalam kecerdasan buatan, teknologi AI memasuki puncak perkembangan kedua.
Gelombang ketiga teknologi AI terjadi pada tahun 2006. Tiga raja deep learning, Yann LeCun, Geoffrey Hinton, dan Yoshua Bengio, mengemukakan konsep deep learning, sebuah algoritma yang menggunakan jaringan saraf buatan sebagai arsitektur untuk pembelajaran representasi data. Setelah itu, algoritma deep learning perlahan-lahan berkembang, dari RNN, GAN hingga Transformer dan Stable Diffusion, kedua algoritma ini bersama-sama membentuk gelombang teknologi ketiga ini, dan ini juga merupakan masa kejayaan koneksionisme.
Banyak peristiwa ikonik juga muncul seiring dengan eksplorasi dan evolusi teknologi pembelajaran mendalam, termasuk:
Pada tahun 2011, Watson) dari IBM mengalahkan manusia dan memenangkan kejuaraan dalam acara kuis "Jeopardy(".
Pada tahun 2014, Goodfellow mengusulkan GAN) Jaringan Adversarial Generatif, Generative Adversarial Network(, yang dapat menghasilkan foto yang menyerupai yang asli dengan cara membiarkan dua jaringan saraf saling berkompetisi dalam pembelajaran. Selain itu, Goodfellow juga menulis sebuah buku berjudul "Deep Learning", yang dikenal sebagai buku bunga, merupakan salah satu buku pengantar penting di bidang pembelajaran mendalam.
Pada tahun 2015, Hinton dan kawan-kawan mengajukan algoritma pembelajaran mendalam dalam jurnal "Nature", pengajuan metode pembelajaran mendalam ini segera memicu respons besar di kalangan akademis dan industri.
Pada tahun 2015, OpenAI didirikan, Musk, Presiden YC Altman, dan investor malaikat Peter Thiel ) Peter Thiel ( dan lainnya mengumumkan investasi bersama sebesar 1 miliar dolar.
Pada tahun 2016, AlphaGo yang berbasis pada teknologi deep learning bertanding melawan juara dunia Go, pemain profesional sembilan dan Lee Sedol, dengan mengalahkan dengan skor total 4-1.
Pada tahun 2017, Hanson Robotics ) yang berbasis di Hong Kong, China, mengembangkan robot humanoid bernama Sophia, yang dikenal sebagai robot pertama dalam sejarah yang mendapatkan status sebagai warga negara, memiliki ekspresi wajah yang kaya serta kemampuan memahami bahasa manusia.
Pada tahun 2017, Google yang memiliki banyak talenta dan cadangan teknologi di bidang kecerdasan buatan menerbitkan makalah berjudul "Attention is all you need" yang memperkenalkan algoritma Transformer, model bahasa berskala besar mulai muncul.
Pada tahun 2018, OpenAI meluncurkan GPT( Generative Pre-trained Transformer) yang dibangun berdasarkan algoritma Transformer, yang merupakan salah satu model bahasa terbesar pada saat itu.
Pada tahun 2018, tim Google Deepmind merilis AlphaGo yang berbasis pembelajaran mendalam, mampu memprediksi struktur protein, dianggap sebagai tanda kemajuan besar di bidang kecerdasan buatan.
Pada tahun 2019, OpenAI merilis GPT-2, model ini memiliki 1,5 miliar parameter.
Pada tahun 2020, OpenAI mengembangkan GPT-3, yang memiliki 175 miliar parameter, 100 kali lebih banyak daripada versi sebelumnya GPT-2. Model ini dilatih menggunakan 570GB teks dan dapat mencapai kinerja terdepan dalam berbagai tugas NLP(, termasuk menjawab pertanyaan, menerjemahkan, dan menulis artikel).
Pada tahun 2021, OpenAI merilis GPT-4, model ini memiliki 1,76 triliun parameter, sepuluh kali lipat dari GPT-3.
Aplikasi ChatGPT berbasis model GPT-4 diluncurkan pada Januari 2023, dan pada bulan Maret ChatGPT mencapai seratus juta pengguna, menjadi aplikasi yang paling cepat dalam sejarah mencapai seratus juta pengguna.
Pada tahun 2024, OpenAI meluncurkan GPT-4 omni.
Catatan: Karena ada banyak makalah tentang kecerdasan buatan, banyak aliran, dan evolusi teknologi yang bervariasi, di sini kami terutama mengikuti sejarah perkembangan pembelajaran mendalam atau koneksionisme, sementara aliran dan teknologi lainnya masih dalam proses perkembangan yang pesat.
Rantai industri pembelajaran mendalam
Model bahasa besar saat ini semuanya menggunakan metode pembelajaran mendalam berbasis jaringan saraf. Dengan GPT sebagai pemimpin, model besar telah menciptakan gelombang baru dalam kecerdasan buatan, banyak pemain yang masuk ke jalur ini, dan kami juga menemukan bahwa permintaan pasar terhadap data dan daya komputasi meningkat pesat. Oleh karena itu, dalam bagian laporan ini, kami terutama mengeksplorasi rantai industri algoritma pembelajaran mendalam, bagaimana hulu dan hilir terbentuk di industri AI yang didominasi oleh algoritma pembelajaran mendalam, serta bagaimana kondisi dan hubungan penawaran dan permintaan di hulu dan hilir, serta perkembangan masa depan.
Pertama-tama, kita perlu menjelaskan bahwa dalam melakukan pelatihan model besar LLMs yang dipimpin oleh GPT berbasis teknologi Transformer(, ada tiga langkah yang harus diikuti.
Sebelum pelatihan, karena berbasis Transformer, maka konverter perlu mengubah input teks menjadi nilai, proses ini disebut "Tokenization", setelah itu nilai-nilai ini disebut Token. Dalam aturan umum, satu kata atau karakter dalam bahasa Inggris bisa dianggap sebagai satu Token, sedangkan setiap karakter Han bisa dianggap sebagai dua Token. Ini juga merupakan satuan dasar yang digunakan dalam penilaian GPT.
Langkah pertama, pra-pelatihan. Dengan memberikan cukup banyak pasangan data ke lapisan input, seperti yang dicontohkan pada bagian pertama laporan )X,Y(, untuk mencari parameter terbaik setiap neuron di bawah model tersebut, pada saat ini diperlukan banyak data, dan proses ini juga merupakan proses yang paling menghabiskan daya komputasi, karena harus mengulangi iterasi neuron mencoba berbagai parameter. Setelah satu batch pasangan data selesai dilatih, biasanya akan digunakan batch data yang sama untuk pelatihan kedua guna mengiterasi parameter.
Langkah kedua, fine-tuning. Fine-tuning adalah memberikan sejumlah kecil data yang berkualitas sangat tinggi untuk melatih, perubahan semacam ini akan membuat output model memiliki kualitas yang lebih tinggi, karena pre-training membutuhkan banyak data, tetapi banyak data mungkin mengandung kesalahan atau berkualitas rendah. Langkah fine-tuning dapat meningkatkan kualitas model melalui data berkualitas tinggi.
Langkah ketiga, pembelajaran penguatan. Pertama, akan dibangun model baru yang kami sebut "model penghargaan", tujuan dari model ini sangat sederhana, yaitu untuk mengurutkan hasil keluaran, sehingga implementasi model ini cukup mudah karena skenario bisnisnya cukup vertikal. Setelah itu, model ini digunakan untuk menentukan apakah keluaran dari model besar kami berkualitas tinggi, sehingga kami dapat menggunakan model penghargaan untuk secara otomatis mengiterasi parameter model besar. ) Namun terkadang juga diperlukan keterlibatan manusia untuk menilai kualitas keluaran model (.
Singkatnya, dalam proses pelatihan model besar, pra-pelatihan memiliki tuntutan yang sangat tinggi terhadap jumlah data, dan daya komputasi GPU yang dibutuhkan juga yang paling banyak, sedangkan penyetelan memerlukan data berkualitas lebih tinggi untuk memperbaiki parameter, pembelajaran penguatan dapat mengulangi parameter melalui model penghargaan untuk menghasilkan hasil yang lebih berkualitas.
Dalam proses pelatihan, semakin banyak parameter, semakin tinggi batas kemampuan generalisasinya. Misalnya, dalam contoh fungsi Y = aX + b, sebenarnya ada dua neuron, yaitu X dan X0. Oleh karena itu, bagaimana parameter berubah, data yang dapat diusulkan sangat terbatas, karena pada dasarnya itu tetap merupakan garis lurus. Jika neuron semakin banyak, maka lebih banyak parameter dapat diiterasi, yang memungkinkan untuk mengusulkan lebih banyak data. Inilah sebabnya mengapa model besar dapat menghasilkan keajaiban, dan ini juga alasan mengapa secara umum disebut model besar, pada dasarnya terdiri dari sejumlah besar neuron dan parameter, serta sejumlah besar data, dan pada saat yang sama memerlukan daya komputasi yang besar.
Oleh karena itu, kinerja model besar ditentukan oleh tiga aspek utama, yaitu jumlah parameter, jumlah dan kualitas data, serta kekuatan komputasi. Ketiga hal ini secara bersama-sama mempengaruhi kualitas hasil dan kemampuan generalisasi model besar. Kita anggap jumlah parameter adalah p, jumlah data adalah n) yang dihitung berdasarkan jumlah Token(, maka kita dapat menghitung jumlah komputasi yang diperlukan dengan menggunakan aturan pengalaman umum, sehingga kita bisa memperkirakan kira-kira kekuatan komputasi yang perlu dibeli serta waktu pelatihan.