"Kita berada di era persaingan global untuk membangun model dasar terbaik. Daya komputasi dan arsitektur model itu penting, tetapi parit yang sebenarnya adalah data pelatihan"
—Sandeep Chinchali, Chief AI Officer, Story
Mari kita bicara tentang potensi AI Data track dari perspektif Scale AI
Gosip terbesar di kalangan AI bulan ini adalah Meta menunjukkan kemampuannya dalam uang. Zuckerberg merekrut bakat di mana-mana dan membentuk tim Meta AI yang mewah yang terdiri terutama dari bakat penelitian ilmiah Tiongkok. Pemimpin timnya adalah Alexander Wang, yang baru berusia 28 tahun dan mendirikan Scale AI. Ia mendirikan Scale AI dan saat ini bernilai 29 miliar dolar AS. Objek layanan termasuk militer AS, serta OpenAI, Anthropic, Meta, dan raksasa AI pesaing lainnya, yang semuanya bergantung pada layanan data yang disediakan oleh Scale AI. Bisnis inti Scale AI adalah menyediakan sejumlah besar data terlabel akurat.
Mengapa Scale AI dapat menonjol dari sekelompok unicorn?
Alasannya adalah bahwa ia menemukan pentingnya data di industri AI sejak awal.
Kekuatan komputasi, model, dan data adalah tiga pilar dari model AI. Jika model besar dibandingkan dengan seseorang, maka model adalah tubuh, kekuatan komputasi adalah makanan, dan data adalah pengetahuan/informasi.
Sejak munculnya LLM, fokus pengembangan industri juga telah bergeser dari model ke daya komputasi. Saat ini, sebagian besar model telah menetapkan transformer sebagai kerangka model, dengan inovasi sesekali seperti MoE atau MoRe. Raksasa besar telah membangun Super Cluster mereka sendiri untuk menyelesaikan Tembok Besar daya komputasi, atau menandatangani perjanjian jangka panjang dengan layanan cloud yang kuat seperti AWS. Setelah daya komputasi dasar terpenuhi, pentingnya data secara bertahap menjadi menonjol.
Tidak seperti perusahaan big data To B tradisional dengan reputasi yang menonjol di pasar sekunder seperti Palantir, Scale AI, sesuai namanya, berkomitmen untuk membangun fondasi data yang solid untuk model AI. Bisnisnya tidak terbatas pada penambangan data yang sudah ada, tetapi juga fokus pada bisnis penghasilan data jangka panjang. Mereka juga berusaha membentuk tim pelatih AI melalui para ahli buatan di berbagai bidang untuk menyediakan data pelatihan berkualitas lebih baik untuk pelatihan model AI.
Jika Anda tidak setuju dengan bisnis ini, mari kita lihat bagaimana model ini dilatih.
Pelatihan model dibagi menjadi dua bagian - pra-pelatihan dan penyempurnaan.
Bagian pra-pelatihan sedikit mirip dengan proses bayi manusia secara bertahap belajar berbicara. Apa yang biasanya kita butuhkan adalah memberi model AI sejumlah besar teks, kode, dan informasi lain yang diperoleh dari perayapan online. Model tersebut belajar isi ini sendiri, belajar berbicara bahasa manusia ( yang secara akademis disebut bahasa alami ), dan memiliki keterampilan komunikasi dasar.
Bagian penyempurnaan mirip dengan pergi ke sekolah, di mana biasanya ada jawaban dan arah yang jelas benar dan salah. Sekolah akan melatih siswa menjadi berbagai bakat berdasarkan penempatan mereka masing-masing. Kami juga akan menggunakan beberapa set data yang telah diproses sebelumnya dan ditargetkan untuk melatih model agar memiliki kemampuan yang kami harapkan.
Pada titik ini, Anda mungkin sudah menyadari bahwa data yang kita butuhkan juga dibagi menjadi dua bagian.
Beberapa data tidak perlu diproses terlalu banyak, cukup yang diperlukan, biasanya berasal dari data crawler dari platform UGC besar seperti Reddit, Twitter, Github, basis data literatur publik, basis data pribadi perusahaan, dll.
Bagian lain, seperti buku teks profesional, memerlukan desain dan penyaringan yang cermat untuk memastikan bahwa kualitas unggul tertentu dari model dapat dikembangkan. Ini memerlukan kita untuk melakukan beberapa pekerjaan yang diperlukan seperti pembersihan data, penyaringan, pelabelan, dan umpan balik manual.
Kedua set data ini merupakan tubuh utama dari jalur Data AI. Jangan meremehkan set data yang tampak rendah teknologi ini. Pandangan arus utama saat ini adalah bahwa seiring keunggulan daya komputasi dalam hukum Skala secara bertahap menjadi tidak efektif, data akan menjadi pilar terpenting bagi berbagai produsen model besar untuk mempertahankan keunggulan kompetitif mereka.
Seiring kemampuan model terus meningkat, data pelatihan yang lebih canggih dan profesional akan menjadi variabel kunci yang memengaruhi kemampuan model. Jika kita lebih lanjut membandingkan pelatihan model dengan pembinaan para master seni bela diri, maka kumpulan data berkualitas tinggi adalah rahasia seni bela diri terbaik ( untuk menyelesaikan metafora ini, kita juga dapat mengatakan bahwa daya komputasi adalah obat mujarab dan model itu sendiri adalah kualifikasi ).
Dari perspektif vertikal, AI Data juga merupakan jalur jangka panjang dengan kemampuan untuk berkembang pesat. Dengan akumulasi pekerjaan sebelumnya, aset data juga akan memiliki kemampuan untuk mengembangkan, dan akan menjadi lebih populer seiring bertambahnya usia.
Web3 DataFi: Tanah Subur Pilihan untuk Data AI
Dibandingkan dengan tim pelabelan manual jarak jauh Scale AI yang terdiri dari ratusan ribu orang di Filipina, Venezuela, dan tempat-tempat lain, Web3 memiliki keunggulan alami di bidang data AI, dan istilah baru DataFi lahir.
Secara ideal, keuntungan dari Web3 DataFi adalah sebagai berikut:
Kedaulatan data, keamanan, dan privasi dijamin oleh kontrak pintar
Pada tahap ketika data publik yang ada akan dikembangkan dan dieksplorasi, bagaimana cara lebih lanjut menambang data yang tidak terungkap, bahkan data pribadi, adalah arah penting untuk memperoleh dan memperluas sumber data. Ini menghadapi masalah pilihan kepercayaan yang penting - apakah Anda memilih sistem pembelian kontrak dari perusahaan besar terpusat dan menjual data Anda; atau apakah Anda memilih metode blockchain, terus memegang IP data di tangan Anda, dan memahami dengan jelas melalui kontrak pintar: siapa yang menggunakan data Anda, kapan, dan untuk tujuan apa.
Pada saat yang sama, untuk informasi sensitif, Anda dapat menggunakan zk, TEE, dan metode lainnya untuk memastikan bahwa data pribadi Anda hanya ditangani oleh mesin yang menjaga kerahasiaan dan tidak akan bocor.
Keunggulan arbitrase geografis alami: arsitektur terdistribusi gratis untuk menarik tenaga kerja yang paling sesuai
Mungkin sudah saatnya untuk menantang hubungan produksi tenaga kerja tradisional. Alih-alih mencari tenaga kerja murah di seluruh dunia seperti Scale AI, lebih baik memanfaatkan karakteristik terdistribusi dari blockchain dan memungkinkan tenaga kerja yang tersebar di seluruh dunia untuk berpartisipasi dalam kontribusi data melalui insentif terbuka dan transparan yang dijamin oleh kontrak pintar.
Untuk tugas yang padat karya seperti pelabelan data dan evaluasi model, penggunaan Web3 DataFi lebih mendukung keberagaman partisipan dibandingkan pendekatan terpusat dalam mendirikan pabrik data, yang juga memiliki signifikansi jangka panjang untuk menghindari bias data.
Keuntungan insentif dan penyelesaian yang jelas dari Blockchain
Bagaimana cara menghindari tragedi "Pabrik Kulit Jiangnan"? Secara alami, kita harus menggunakan sistem insentif dengan label harga yang jelas dalam kontrak pintar untuk menggantikan kegelapan sifat manusia.
Dalam konteks deglobalisasi yang tak terhindarkan, bagaimana kita dapat terus mencapai arbitrase geografis dengan biaya rendah? Jelas lebih sulit untuk membuka perusahaan di seluruh dunia, jadi mengapa tidak melewati batasan dunia lama dan mengadopsi metode penyelesaian on-chain?
Ini menguntungkan untuk membangun pasar data "satu atap" yang lebih efisien dan terbuka
"Perantara yang mengambil keuntungan dari selisih harga" adalah rasa sakit abadi bagi kedua sisi penawaran dan permintaan. Alih-alih membiarkan perusahaan data terpusat bertindak sebagai perantara, lebih baik membuat platform di blockchain, melalui pasar terbuka seperti Taobao, sehingga sisi penawaran dan permintaan data dapat terhubung secara lebih transparan dan efisien.
Dengan perkembangan ekosistem AI on-chain, permintaan untuk data on-chain akan menjadi lebih kuat, tersegmentasi, dan beragam. Hanya pasar terdesentralisasi yang dapat secara efisien mencerna permintaan ini dan mengubahnya menjadi kemakmuran ekosistem.
Untuk investor ritel, DataFi juga merupakan proyek AI yang paling terdesentralisasi yang paling mendukung partisipasi investor ritel biasa.
Meskipun kemunculan alat AI telah menurunkan ambang belajar hingga tingkat tertentu, dan niat awal dari AI terdesentralisasi adalah untuk memecahkan monopoli bisnis AI saat ini oleh raksasa; namun, harus diakui bahwa banyak proyek saat ini tidak sangat dapat diakses oleh investor ritel yang tidak memiliki latar belakang teknis - berpartisipasi dalam penambangan jaringan komputasi terdesentralisasi sering kali disertai dengan investasi perangkat keras awal yang mahal, dan ambang teknis pasar model selalu dengan mudah dapat menghalangi peserta biasa.
Sebaliknya, ini adalah salah satu dari sedikit peluang yang dapat dimanfaatkan oleh pengguna biasa dalam revolusi AI. Web3 memungkinkan Anda untuk berpartisipasi di dalamnya dengan menyelesaikan berbagai tugas sederhana, termasuk menyediakan data, memberi label dan mengevaluasi model berdasarkan intuisi dan naluri otak manusia, atau lebih lanjut menggunakan alat AI untuk melakukan beberapa kreasi sederhana, berpartisipasi dalam transaksi data, dll. Bagi para pengemudi lama Partai Mao, nilai kesulitannya pada dasarnya nol.
Proyek potensial DataFi Web3
Di mana uang mengalir, di situlah arah. Selain Scale AI yang menerima investasi sebesar $14,3 miliar dari Meta dan harga saham Palantir yang melonjak lebih dari 5 kali lipat dalam satu tahun di dunia Web2, DataFi juga berkinerja sangat baik dalam pembiayaan Web3. Di sini kami memberikan pengantar singkat tentang proyek-proyek ini.
Sahara AI, @SaharaLabsAI, mengumpulkan $49 juta
Tujuan utama Sahara AI adalah membangun infrastruktur super AI terdesentralisasi dan pasar perdagangan. Sektor pertama yang akan diuji adalah Data AI. Versi beta publik dari Platform Layanan Data DSP () akan diluncurkan pada 22 Juli. Pengguna dapat memperoleh hadiah token dengan berkontribusi data, berpartisipasi dalam pelabelan data, dan tugas-tugas lainnya.
Tautan: app.saharaai.com
Yupp, @yupp_ai, mengumpulkan $33 juta
Yupp adalah platform umpan balik model AI yang mengumpulkan umpan balik pengguna tentang keluaran model. Tugas utama saat ini adalah pengguna dapat membandingkan keluaran dari berbagai model untuk prompt yang sama, dan kemudian memilih salah satu yang mereka anggap lebih baik. Menyelesaikan tugas dapat menghasilkan poin Yupp, yang dapat ditukarkan lebih lanjut dengan stablecoin fiat seperti USDC.
Tautan:
Vana, @vana, mengumpulkan $23 juta
Vana berfokus pada mengonversi data pribadi pengguna ( seperti aktivitas media sosial, riwayat penelusuran, dll. ) menjadi aset digital yang dapat dimonetisasi. Pengguna dapat memberikan otorisasi untuk mengunggah data pribadi mereka ke kolam likuiditas data yang sesuai (DLP) di DataDAOs. Data ini akan digabungkan dan digunakan untuk berpartisipasi dalam tugas-tugas seperti pelatihan model AI, dan pengguna juga akan menerima imbalan token yang sesuai.
Tautan:
Chainbase, @ChainbaseHQ, mengumpulkan $16,5 juta
Bisnis Chainbase berfokus pada data on-chain, dan saat ini mencakup lebih dari 200 blockchain, mengubah aktivitas on-chain menjadi aset data terstruktur, terverifikasi, dan dapat dimonetisasi untuk pengembangan dApp. Bisnis Chainbase terutama diperoleh melalui pengindeksan multi-chain dan metode lainnya, dan data diproses melalui sistem Manuscript dan model AI Theia. Pengguna biasa saat ini tidak terlalu terlibat.
Sapien, @JoinSapien, mengumpulkan $15,5 juta
Sapien bertujuan untuk mengubah pengetahuan manusia menjadi data pelatihan AI berkualitas tinggi dalam skala besar. Siapa pun dapat melakukan anotasi data di platform dan memastikan kualitas data melalui verifikasi rekan. Pada saat yang sama, pengguna didorong untuk membangun reputasi jangka panjang atau membuat komitmen melalui staking untuk mendapatkan lebih banyak imbalan.
Tautan:
Prisma X, @PrismaXai , mengumpulkan $11 juta
Prisma X ingin menjadi lapisan koordinasi terbuka untuk robot, di mana pengumpulan data fisik adalah kunci. Proyek ini saat ini berada dalam tahap awal. Menurut kertas kerja yang baru saja dirilis, partisipasi dapat mencakup investasi dalam robot untuk mengumpulkan data, mengoperasikan data robot dari jarak jauh, dll. Saat ini, kuis berdasarkan kertas kerja tersebut dibuka, dan Anda dapat berpartisipasi untuk mendapatkan poin.
Tautan:
Masa, @getmasafi, mengumpulkan $8,9 juta
Masa adalah salah satu proyek subnet terkemuka di ekosistem Bittensor, dan saat ini mengoperasikan Data Subnet No. 42 dan Agent Subnet No. 59. Data subnet berkomitmen untuk menyediakan akses data secara real-time. Saat ini, penambang terutama mengumpulkan data real-time di X/Twitter melalui perangkat keras TEE. Bagi pengguna biasa, tingkat kesulitan dan biaya partisipasi relatif tinggi.
Irys, @irys_xyz, mengumpulkan $8,7 juta
Irys berfokus pada penyimpanan data dan komputasi yang dapat diprogram, dengan tujuan untuk menyediakan solusi yang efisien dan biaya rendah untuk AI, aplikasi terdesentralisasi (dApps), dan aplikasi lain yang intensif data. Dalam hal kontribusi data, pengguna biasa saat ini tidak dapat berpartisipasi banyak, tetapi ada berbagai aktivitas untuk berpartisipasi dalam tahap testnet saat ini.
Tautan:
ORO, @getoro_xyz, mengumpulkan $6 juta
Apa yang ingin dilakukan ORO adalah memberdayakan orang biasa untuk berpartisipasi dalam kontribusi AI. Metode dukungan meliputi: 1. Menghubungkan akun pribadi Anda untuk menyumbangkan data pribadi, termasuk akun sosial, data kesehatan, e-commerce, dan akun keuangan; 2. Menyelesaikan tugas data. Jaringan uji sekarang sudah online dan Anda dapat berpartisipasi.
Tautan: app.getoro.xyz
Gata, @Gata_xyz, mengumpulkan $4 juta
Diposisikan sebagai lapisan data terdesentralisasi, Gata saat ini memiliki tiga produk kunci untuk diikuti: 1. Data Agent: serangkaian AI Agents yang dapat secara otomatis menjalankan dan memproses data selama pengguna membuka halaman web; 2. AII-in-one Chat: mekanisme yang mirip dengan evaluasi model Yupp untuk mendapatkan imbalan; 3. GPT-to-Earn: plug-in browser yang mengumpulkan data percakapan pengguna di ChatGPT.
Tautan:
Bagaimana pendapat Anda tentang proyek-proyek saat ini?
Saat ini, hambatan untuk masuk ke proyek-proyek ini umumnya tidak tinggi, tetapi harus diakui bahwa setelah pengguna dan daya tarik ekosistem terakumulasi, keuntungan platform akan terakumulasi dengan cepat. Oleh karena itu, pada tahap awal, upaya harus difokuskan pada insentif dan pengalaman pengguna. Hanya dengan menarik cukup banyak pengguna, bisnis big data dapat dibangun.
Namun, sebagai proyek yang memerlukan tenaga kerja intensif, platform data ini juga harus mempertimbangkan bagaimana mengelola tenaga kerja dan memastikan kualitas keluaran data sambil menarik tenaga kerja. Bagaimanapun, masalah umum dari banyak proyek Web3 adalah bahwa sebagian besar pengguna di platform hanya merupakan pemanfaat tanpa hati nurani. Mereka sering mengorbankan kualitas demi keuntungan jangka pendek. Jika mereka diizinkan menjadi pengguna utama platform, uang yang buruk pasti akan mengusir uang yang baik, dan pada akhirnya kualitas data tidak dapat dijamin dan pembeli tidak dapat tertarik. Saat ini, kami telah melihat bahwa proyek seperti Sahara dan Sapien telah menekankan kualitas data dan berusaha untuk membangun hubungan kerja sama yang jangka panjang dan sehat dengan tenaga kerja di platform.
Selain itu, kurangnya transparansi adalah masalah lain dari proyek on-chain saat ini. Memang, segitiga yang mustahil dari blockchain telah memaksa banyak proyek untuk mengambil jalur "sentralisasi mendorong desentralisasi" dalam fase startup. Namun sekarang semakin banyak proyek on-chain yang memberikan kesan "proyek Web2 lama dalam kulit Web3" - ada sangat sedikit data publik yang dapat dilacak di rantai, dan bahkan peta jalan sulit untuk melihat ketetapan jangka panjang mengenai keterbukaan dan transparansi. Ini jelas beracun bagi perkembangan sehat jangka panjang dari Web3 DataFi, dan kami juga berharap lebih banyak proyek akan selalu menjaga niat asli mereka dan mempercepat langkah keterbukaan dan transparansi.
Akhirnya, jalur adopsi massal DataFi juga harus dibagi menjadi dua bagian: yang satu adalah menarik cukup banyak peserta toC untuk bergabung dengan jaringan, membentuk kekuatan baru untuk rekayasa pengumpulan/produksi data dan konsumen ekonomi AI, membentuk siklus ekologi yang tertutup; yang lainnya adalah mendapatkan pengakuan dari perusahaan toB arus utama saat ini. Bagaimanapun, dalam jangka pendek, mereka adalah sumber utama pesanan data besar dengan kantong yang dalam. Dalam hal ini, kami juga telah melihat bahwa Sahara AI, Vana, dll. telah membuat kemajuan yang baik.
Kesimpulan
Untuk lebih fatalis, DataFi adalah tentang menggunakan kecerdasan manusia untuk memelihara kecerdasan mesin dalam jangka panjang, sambil menggunakan kontrak pintar sebagai kontrak untuk memastikan bahwa tenaga kerja kecerdasan manusia menguntungkan dan pada akhirnya menikmati umpan balik dari kecerdasan mesin.
Jika Anda merasa cemas tentang ketidakpastian era AI, dan jika Anda masih memiliki cita-cita blockchain di tengah naik turunnya dunia cryptocurrency, maka mengikuti jejak sekelompok raksasa modal dan bergabung dengan DataFi adalah pilihan yang baik untuk mengikuti tren.
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
Data adalah aset: DataFi sedang membuka lautan biru yang baru
Penulis: Kontributor inti Biteye @anci_hu49074
"Kita berada di era persaingan global untuk membangun model dasar terbaik. Daya komputasi dan arsitektur model itu penting, tetapi parit yang sebenarnya adalah data pelatihan"
—Sandeep Chinchali, Chief AI Officer, Story
Mari kita bicara tentang potensi AI Data track dari perspektif Scale AI
Gosip terbesar di kalangan AI bulan ini adalah Meta menunjukkan kemampuannya dalam uang. Zuckerberg merekrut bakat di mana-mana dan membentuk tim Meta AI yang mewah yang terdiri terutama dari bakat penelitian ilmiah Tiongkok. Pemimpin timnya adalah Alexander Wang, yang baru berusia 28 tahun dan mendirikan Scale AI. Ia mendirikan Scale AI dan saat ini bernilai 29 miliar dolar AS. Objek layanan termasuk militer AS, serta OpenAI, Anthropic, Meta, dan raksasa AI pesaing lainnya, yang semuanya bergantung pada layanan data yang disediakan oleh Scale AI. Bisnis inti Scale AI adalah menyediakan sejumlah besar data terlabel akurat.
Mengapa Scale AI dapat menonjol dari sekelompok unicorn?
Alasannya adalah bahwa ia menemukan pentingnya data di industri AI sejak awal.
Kekuatan komputasi, model, dan data adalah tiga pilar dari model AI. Jika model besar dibandingkan dengan seseorang, maka model adalah tubuh, kekuatan komputasi adalah makanan, dan data adalah pengetahuan/informasi.
Sejak munculnya LLM, fokus pengembangan industri juga telah bergeser dari model ke daya komputasi. Saat ini, sebagian besar model telah menetapkan transformer sebagai kerangka model, dengan inovasi sesekali seperti MoE atau MoRe. Raksasa besar telah membangun Super Cluster mereka sendiri untuk menyelesaikan Tembok Besar daya komputasi, atau menandatangani perjanjian jangka panjang dengan layanan cloud yang kuat seperti AWS. Setelah daya komputasi dasar terpenuhi, pentingnya data secara bertahap menjadi menonjol.
Tidak seperti perusahaan big data To B tradisional dengan reputasi yang menonjol di pasar sekunder seperti Palantir, Scale AI, sesuai namanya, berkomitmen untuk membangun fondasi data yang solid untuk model AI. Bisnisnya tidak terbatas pada penambangan data yang sudah ada, tetapi juga fokus pada bisnis penghasilan data jangka panjang. Mereka juga berusaha membentuk tim pelatih AI melalui para ahli buatan di berbagai bidang untuk menyediakan data pelatihan berkualitas lebih baik untuk pelatihan model AI.
Jika Anda tidak setuju dengan bisnis ini, mari kita lihat bagaimana model ini dilatih.
Pelatihan model dibagi menjadi dua bagian - pra-pelatihan dan penyempurnaan.
Bagian pra-pelatihan sedikit mirip dengan proses bayi manusia secara bertahap belajar berbicara. Apa yang biasanya kita butuhkan adalah memberi model AI sejumlah besar teks, kode, dan informasi lain yang diperoleh dari perayapan online. Model tersebut belajar isi ini sendiri, belajar berbicara bahasa manusia ( yang secara akademis disebut bahasa alami ), dan memiliki keterampilan komunikasi dasar.
Bagian penyempurnaan mirip dengan pergi ke sekolah, di mana biasanya ada jawaban dan arah yang jelas benar dan salah. Sekolah akan melatih siswa menjadi berbagai bakat berdasarkan penempatan mereka masing-masing. Kami juga akan menggunakan beberapa set data yang telah diproses sebelumnya dan ditargetkan untuk melatih model agar memiliki kemampuan yang kami harapkan.
Pada titik ini, Anda mungkin sudah menyadari bahwa data yang kita butuhkan juga dibagi menjadi dua bagian.
Kedua set data ini merupakan tubuh utama dari jalur Data AI. Jangan meremehkan set data yang tampak rendah teknologi ini. Pandangan arus utama saat ini adalah bahwa seiring keunggulan daya komputasi dalam hukum Skala secara bertahap menjadi tidak efektif, data akan menjadi pilar terpenting bagi berbagai produsen model besar untuk mempertahankan keunggulan kompetitif mereka.
Seiring kemampuan model terus meningkat, data pelatihan yang lebih canggih dan profesional akan menjadi variabel kunci yang memengaruhi kemampuan model. Jika kita lebih lanjut membandingkan pelatihan model dengan pembinaan para master seni bela diri, maka kumpulan data berkualitas tinggi adalah rahasia seni bela diri terbaik ( untuk menyelesaikan metafora ini, kita juga dapat mengatakan bahwa daya komputasi adalah obat mujarab dan model itu sendiri adalah kualifikasi ).
Dari perspektif vertikal, AI Data juga merupakan jalur jangka panjang dengan kemampuan untuk berkembang pesat. Dengan akumulasi pekerjaan sebelumnya, aset data juga akan memiliki kemampuan untuk mengembangkan, dan akan menjadi lebih populer seiring bertambahnya usia.
Web3 DataFi: Tanah Subur Pilihan untuk Data AI
Dibandingkan dengan tim pelabelan manual jarak jauh Scale AI yang terdiri dari ratusan ribu orang di Filipina, Venezuela, dan tempat-tempat lain, Web3 memiliki keunggulan alami di bidang data AI, dan istilah baru DataFi lahir.
Secara ideal, keuntungan dari Web3 DataFi adalah sebagai berikut:
Pada tahap ketika data publik yang ada akan dikembangkan dan dieksplorasi, bagaimana cara lebih lanjut menambang data yang tidak terungkap, bahkan data pribadi, adalah arah penting untuk memperoleh dan memperluas sumber data. Ini menghadapi masalah pilihan kepercayaan yang penting - apakah Anda memilih sistem pembelian kontrak dari perusahaan besar terpusat dan menjual data Anda; atau apakah Anda memilih metode blockchain, terus memegang IP data di tangan Anda, dan memahami dengan jelas melalui kontrak pintar: siapa yang menggunakan data Anda, kapan, dan untuk tujuan apa.
Pada saat yang sama, untuk informasi sensitif, Anda dapat menggunakan zk, TEE, dan metode lainnya untuk memastikan bahwa data pribadi Anda hanya ditangani oleh mesin yang menjaga kerahasiaan dan tidak akan bocor.
Mungkin sudah saatnya untuk menantang hubungan produksi tenaga kerja tradisional. Alih-alih mencari tenaga kerja murah di seluruh dunia seperti Scale AI, lebih baik memanfaatkan karakteristik terdistribusi dari blockchain dan memungkinkan tenaga kerja yang tersebar di seluruh dunia untuk berpartisipasi dalam kontribusi data melalui insentif terbuka dan transparan yang dijamin oleh kontrak pintar.
Untuk tugas yang padat karya seperti pelabelan data dan evaluasi model, penggunaan Web3 DataFi lebih mendukung keberagaman partisipan dibandingkan pendekatan terpusat dalam mendirikan pabrik data, yang juga memiliki signifikansi jangka panjang untuk menghindari bias data.
Bagaimana cara menghindari tragedi "Pabrik Kulit Jiangnan"? Secara alami, kita harus menggunakan sistem insentif dengan label harga yang jelas dalam kontrak pintar untuk menggantikan kegelapan sifat manusia.
Dalam konteks deglobalisasi yang tak terhindarkan, bagaimana kita dapat terus mencapai arbitrase geografis dengan biaya rendah? Jelas lebih sulit untuk membuka perusahaan di seluruh dunia, jadi mengapa tidak melewati batasan dunia lama dan mengadopsi metode penyelesaian on-chain?
"Perantara yang mengambil keuntungan dari selisih harga" adalah rasa sakit abadi bagi kedua sisi penawaran dan permintaan. Alih-alih membiarkan perusahaan data terpusat bertindak sebagai perantara, lebih baik membuat platform di blockchain, melalui pasar terbuka seperti Taobao, sehingga sisi penawaran dan permintaan data dapat terhubung secara lebih transparan dan efisien.
Dengan perkembangan ekosistem AI on-chain, permintaan untuk data on-chain akan menjadi lebih kuat, tersegmentasi, dan beragam. Hanya pasar terdesentralisasi yang dapat secara efisien mencerna permintaan ini dan mengubahnya menjadi kemakmuran ekosistem.
Untuk investor ritel, DataFi juga merupakan proyek AI yang paling terdesentralisasi yang paling mendukung partisipasi investor ritel biasa.
Meskipun kemunculan alat AI telah menurunkan ambang belajar hingga tingkat tertentu, dan niat awal dari AI terdesentralisasi adalah untuk memecahkan monopoli bisnis AI saat ini oleh raksasa; namun, harus diakui bahwa banyak proyek saat ini tidak sangat dapat diakses oleh investor ritel yang tidak memiliki latar belakang teknis - berpartisipasi dalam penambangan jaringan komputasi terdesentralisasi sering kali disertai dengan investasi perangkat keras awal yang mahal, dan ambang teknis pasar model selalu dengan mudah dapat menghalangi peserta biasa.
Sebaliknya, ini adalah salah satu dari sedikit peluang yang dapat dimanfaatkan oleh pengguna biasa dalam revolusi AI. Web3 memungkinkan Anda untuk berpartisipasi di dalamnya dengan menyelesaikan berbagai tugas sederhana, termasuk menyediakan data, memberi label dan mengevaluasi model berdasarkan intuisi dan naluri otak manusia, atau lebih lanjut menggunakan alat AI untuk melakukan beberapa kreasi sederhana, berpartisipasi dalam transaksi data, dll. Bagi para pengemudi lama Partai Mao, nilai kesulitannya pada dasarnya nol.
Proyek potensial DataFi Web3
Di mana uang mengalir, di situlah arah. Selain Scale AI yang menerima investasi sebesar $14,3 miliar dari Meta dan harga saham Palantir yang melonjak lebih dari 5 kali lipat dalam satu tahun di dunia Web2, DataFi juga berkinerja sangat baik dalam pembiayaan Web3. Di sini kami memberikan pengantar singkat tentang proyek-proyek ini.
Sahara AI, @SaharaLabsAI, mengumpulkan $49 juta
Tujuan utama Sahara AI adalah membangun infrastruktur super AI terdesentralisasi dan pasar perdagangan. Sektor pertama yang akan diuji adalah Data AI. Versi beta publik dari Platform Layanan Data DSP () akan diluncurkan pada 22 Juli. Pengguna dapat memperoleh hadiah token dengan berkontribusi data, berpartisipasi dalam pelabelan data, dan tugas-tugas lainnya.
Tautan: app.saharaai.com
Yupp, @yupp_ai, mengumpulkan $33 juta
Yupp adalah platform umpan balik model AI yang mengumpulkan umpan balik pengguna tentang keluaran model. Tugas utama saat ini adalah pengguna dapat membandingkan keluaran dari berbagai model untuk prompt yang sama, dan kemudian memilih salah satu yang mereka anggap lebih baik. Menyelesaikan tugas dapat menghasilkan poin Yupp, yang dapat ditukarkan lebih lanjut dengan stablecoin fiat seperti USDC.
Tautan:
Vana, @vana, mengumpulkan $23 juta
Vana berfokus pada mengonversi data pribadi pengguna ( seperti aktivitas media sosial, riwayat penelusuran, dll. ) menjadi aset digital yang dapat dimonetisasi. Pengguna dapat memberikan otorisasi untuk mengunggah data pribadi mereka ke kolam likuiditas data yang sesuai (DLP) di DataDAOs. Data ini akan digabungkan dan digunakan untuk berpartisipasi dalam tugas-tugas seperti pelatihan model AI, dan pengguna juga akan menerima imbalan token yang sesuai.
Tautan:
Chainbase, @ChainbaseHQ, mengumpulkan $16,5 juta
Bisnis Chainbase berfokus pada data on-chain, dan saat ini mencakup lebih dari 200 blockchain, mengubah aktivitas on-chain menjadi aset data terstruktur, terverifikasi, dan dapat dimonetisasi untuk pengembangan dApp. Bisnis Chainbase terutama diperoleh melalui pengindeksan multi-chain dan metode lainnya, dan data diproses melalui sistem Manuscript dan model AI Theia. Pengguna biasa saat ini tidak terlalu terlibat.
Sapien, @JoinSapien, mengumpulkan $15,5 juta
Sapien bertujuan untuk mengubah pengetahuan manusia menjadi data pelatihan AI berkualitas tinggi dalam skala besar. Siapa pun dapat melakukan anotasi data di platform dan memastikan kualitas data melalui verifikasi rekan. Pada saat yang sama, pengguna didorong untuk membangun reputasi jangka panjang atau membuat komitmen melalui staking untuk mendapatkan lebih banyak imbalan.
Tautan:
Prisma X, @PrismaXai , mengumpulkan $11 juta
Prisma X ingin menjadi lapisan koordinasi terbuka untuk robot, di mana pengumpulan data fisik adalah kunci. Proyek ini saat ini berada dalam tahap awal. Menurut kertas kerja yang baru saja dirilis, partisipasi dapat mencakup investasi dalam robot untuk mengumpulkan data, mengoperasikan data robot dari jarak jauh, dll. Saat ini, kuis berdasarkan kertas kerja tersebut dibuka, dan Anda dapat berpartisipasi untuk mendapatkan poin.
Tautan:
Masa, @getmasafi, mengumpulkan $8,9 juta
Masa adalah salah satu proyek subnet terkemuka di ekosistem Bittensor, dan saat ini mengoperasikan Data Subnet No. 42 dan Agent Subnet No. 59. Data subnet berkomitmen untuk menyediakan akses data secara real-time. Saat ini, penambang terutama mengumpulkan data real-time di X/Twitter melalui perangkat keras TEE. Bagi pengguna biasa, tingkat kesulitan dan biaya partisipasi relatif tinggi.
Irys, @irys_xyz, mengumpulkan $8,7 juta
Irys berfokus pada penyimpanan data dan komputasi yang dapat diprogram, dengan tujuan untuk menyediakan solusi yang efisien dan biaya rendah untuk AI, aplikasi terdesentralisasi (dApps), dan aplikasi lain yang intensif data. Dalam hal kontribusi data, pengguna biasa saat ini tidak dapat berpartisipasi banyak, tetapi ada berbagai aktivitas untuk berpartisipasi dalam tahap testnet saat ini.
Tautan:
ORO, @getoro_xyz, mengumpulkan $6 juta
Apa yang ingin dilakukan ORO adalah memberdayakan orang biasa untuk berpartisipasi dalam kontribusi AI. Metode dukungan meliputi: 1. Menghubungkan akun pribadi Anda untuk menyumbangkan data pribadi, termasuk akun sosial, data kesehatan, e-commerce, dan akun keuangan; 2. Menyelesaikan tugas data. Jaringan uji sekarang sudah online dan Anda dapat berpartisipasi.
Tautan: app.getoro.xyz
Gata, @Gata_xyz, mengumpulkan $4 juta
Diposisikan sebagai lapisan data terdesentralisasi, Gata saat ini memiliki tiga produk kunci untuk diikuti: 1. Data Agent: serangkaian AI Agents yang dapat secara otomatis menjalankan dan memproses data selama pengguna membuka halaman web; 2. AII-in-one Chat: mekanisme yang mirip dengan evaluasi model Yupp untuk mendapatkan imbalan; 3. GPT-to-Earn: plug-in browser yang mengumpulkan data percakapan pengguna di ChatGPT.
Tautan:
Bagaimana pendapat Anda tentang proyek-proyek saat ini?
Saat ini, hambatan untuk masuk ke proyek-proyek ini umumnya tidak tinggi, tetapi harus diakui bahwa setelah pengguna dan daya tarik ekosistem terakumulasi, keuntungan platform akan terakumulasi dengan cepat. Oleh karena itu, pada tahap awal, upaya harus difokuskan pada insentif dan pengalaman pengguna. Hanya dengan menarik cukup banyak pengguna, bisnis big data dapat dibangun.
Namun, sebagai proyek yang memerlukan tenaga kerja intensif, platform data ini juga harus mempertimbangkan bagaimana mengelola tenaga kerja dan memastikan kualitas keluaran data sambil menarik tenaga kerja. Bagaimanapun, masalah umum dari banyak proyek Web3 adalah bahwa sebagian besar pengguna di platform hanya merupakan pemanfaat tanpa hati nurani. Mereka sering mengorbankan kualitas demi keuntungan jangka pendek. Jika mereka diizinkan menjadi pengguna utama platform, uang yang buruk pasti akan mengusir uang yang baik, dan pada akhirnya kualitas data tidak dapat dijamin dan pembeli tidak dapat tertarik. Saat ini, kami telah melihat bahwa proyek seperti Sahara dan Sapien telah menekankan kualitas data dan berusaha untuk membangun hubungan kerja sama yang jangka panjang dan sehat dengan tenaga kerja di platform.
Selain itu, kurangnya transparansi adalah masalah lain dari proyek on-chain saat ini. Memang, segitiga yang mustahil dari blockchain telah memaksa banyak proyek untuk mengambil jalur "sentralisasi mendorong desentralisasi" dalam fase startup. Namun sekarang semakin banyak proyek on-chain yang memberikan kesan "proyek Web2 lama dalam kulit Web3" - ada sangat sedikit data publik yang dapat dilacak di rantai, dan bahkan peta jalan sulit untuk melihat ketetapan jangka panjang mengenai keterbukaan dan transparansi. Ini jelas beracun bagi perkembangan sehat jangka panjang dari Web3 DataFi, dan kami juga berharap lebih banyak proyek akan selalu menjaga niat asli mereka dan mempercepat langkah keterbukaan dan transparansi.
Akhirnya, jalur adopsi massal DataFi juga harus dibagi menjadi dua bagian: yang satu adalah menarik cukup banyak peserta toC untuk bergabung dengan jaringan, membentuk kekuatan baru untuk rekayasa pengumpulan/produksi data dan konsumen ekonomi AI, membentuk siklus ekologi yang tertutup; yang lainnya adalah mendapatkan pengakuan dari perusahaan toB arus utama saat ini. Bagaimanapun, dalam jangka pendek, mereka adalah sumber utama pesanan data besar dengan kantong yang dalam. Dalam hal ini, kami juga telah melihat bahwa Sahara AI, Vana, dll. telah membuat kemajuan yang baik.
Kesimpulan
Untuk lebih fatalis, DataFi adalah tentang menggunakan kecerdasan manusia untuk memelihara kecerdasan mesin dalam jangka panjang, sambil menggunakan kontrak pintar sebagai kontrak untuk memastikan bahwa tenaga kerja kecerdasan manusia menguntungkan dan pada akhirnya menikmati umpan balik dari kecerdasan mesin.
Jika Anda merasa cemas tentang ketidakpastian era AI, dan jika Anda masih memiliki cita-cita blockchain di tengah naik turunnya dunia cryptocurrency, maka mengikuti jejak sekelompok raksasa modal dan bergabung dengan DataFi adalah pilihan yang baik untuk mengikuti tren.