Sự phát triển gần đây của ngành trí tuệ nhân tạo được một số người coi là cuộc cách mạng công nghiệp lần thứ tư. Sự xuất hiện của các mô hình lớn đã nâng cao đáng kể hiệu suất của nhiều ngành nghề khác nhau, ước tính đã giúp Mỹ nâng cao khoảng 20% hiệu suất lao động. Đồng thời, khả năng tổng quát mà các mô hình lớn mang lại được coi là một mô hình thiết kế phần mềm mới, so với việc thiết kế mã chính xác trong quá khứ, thiết kế phần mềm hiện tại chủ yếu là tích hợp các khung mô hình lớn tổng quát vào phần mềm, các phần mềm này có thể thể hiện tốt hơn và hỗ trợ đầu vào và đầu ra với nhiều kiểu dữ liệu hơn. Công nghệ học sâu thực sự đã mang đến một làn sóng thịnh vượng mới cho ngành AI, trào lưu này cũng đã mở rộng đến ngành công nghiệp tiền điện tử.
Báo cáo này sẽ thảo luận chi tiết về lịch sử phát triển của ngành AI, phân loại công nghệ và ảnh hưởng của công nghệ học sâu đến ngành. Sau đó, sẽ phân tích sâu về tình trạng và xu hướng phát triển của chuỗi công nghiệp trong học sâu như GPU, điện toán đám mây, nguồn dữ liệu, thiết bị biên, v.v. Cuối cùng, sẽ thảo luận về mối quan hệ giữa tiền điện tử và ngành AI từ bản chất, và sắp xếp lại cấu trúc chuỗi công nghiệp AI liên quan đến tiền điện tử.
Lịch sử phát triển của ngành AI
Ngành AI bắt đầu từ những năm 1950, để hiện thực hóa tầm nhìn về trí tuệ nhân tạo, giới học thuật và công nghiệp đã phát triển nhiều trường phái khác nhau trong các bối cảnh ngành học khác nhau qua các thời kỳ.
Công nghệ trí tuệ nhân tạo hiện đại chủ yếu sử dụng thuật ngữ "học máy", với ý tưởng là để máy tính dựa vào dữ liệu lặp đi lặp lại trong các nhiệm vụ để cải thiện hiệu suất hệ thống. Các bước chính là gửi dữ liệu vào thuật toán, sử dụng dữ liệu này để đào tạo mô hình, kiểm tra triển khai mô hình, và sử dụng mô hình để hoàn thành nhiệm vụ dự đoán tự động.
Hiện nay, học máy có ba trường phái chính, lần lượt là kết nối chủ nghĩa, ký hiệu chủ nghĩa và hành vi chủ nghĩa, lần lượt mô phỏng hệ thần kinh, tư duy và hành vi của con người.
Hiện nay, chủ nghĩa liên kết với đại diện là mạng nơ-ron đang chiếm ưu thế ( còn được gọi là học sâu ), nguyên nhân chính là do kiến trúc này có một lớp đầu vào, một lớp đầu ra, nhưng có nhiều lớp ẩn. Một khi số lượng lớp và nơ-ron ( cũng như số lượng tham số ) đủ nhiều, sẽ có đủ cơ hội để phù hợp với các nhiệm vụ phức tạp tổng quát. Thông qua việc nhập dữ liệu, có thể liên tục điều chỉnh các tham số nơ-ron, sau nhiều lần xử lý dữ liệu, nơ-ron sẽ đạt đến trạng thái tối ưu ( tham số ), đây cũng là nguồn gốc của "độ sâu" - đủ số lượng lớp và nơ-ron.
Công nghệ học sâu dựa trên mạng nơ-ron, cũng có nhiều lần lặp và tiến hóa kỹ thuật, từ mạng nơ-ron sớm, đến mạng nơ-ron hồi tiếp, RNN, CNN, GAN, cuối cùng tiến hóa thành các mô hình lớn hiện đại như GPT sử dụng công nghệ Transformer. Công nghệ Transformer chỉ là một hướng tiến hóa của mạng nơ-ron, đã thêm một bộ chuyển đổi, dùng để mã hóa tất cả các kiểu dữ liệu ( như âm thanh, video, hình ảnh, v.v. ) thành các giá trị tương ứng để biểu thị. Sau đó được đưa vào mạng nơ-ron, như vậy mạng nơ-ron có thể khớp bất kỳ loại dữ liệu nào, tức là thực hiện đa mô hình.
Sự phát triển của AI đã trải qua ba làn sóng công nghệ:
Làn sóng đầu tiên diễn ra vào những năm 1960, mười năm sau khi công nghệ AI được đưa ra, là do sự phát triển của công nghệ ký hiệu. Công nghệ này giải quyết các vấn đề xử lý ngôn ngữ tự nhiên tổng quát và đối thoại giữa người và máy. Cùng thời điểm đó, hệ thống chuyên gia ra đời, đây là một hệ thống có kiến thức hóa học rất mạnh, thông qua các câu hỏi để suy diễn và tạo ra câu trả lời giống như một chuyên gia hóa học.
Làn sóng công nghệ AI thứ hai xảy ra vào năm 1997, khi IBM Deep Blue thắng kiện vô địch cờ vua Kasparov với tỷ số 3.5:2.5, chiến thắng này được coi là một cột mốc trong lịch sử trí tuệ nhân tạo.
Làn sóng công nghệ AI thứ ba diễn ra vào năm 2006. Ba ông lớn trong lĩnh vực học sâu đã đưa ra khái niệm về học sâu, một thuật toán dựa trên kiến trúc mạng nơ-ron nhân tạo để học biểu diễn dữ liệu. Sau đó, các thuật toán học sâu dần tiến hóa, từ RNN, GAN đến Transformer và Stable Diffusion, những thuật toán này cùng nhau định hình làn sóng công nghệ thứ ba, cũng là thời kỳ hoàng kim của liên kết.
Nhiều sự kiện mang tính biểu tượng cũng đã xuất hiện dần dần cùng với việc khám phá và tiến bộ của công nghệ học sâu, bao gồm:
Năm 2011, Watson của IBM đã đánh bại con người để giành chiến thắng trong chương trình quiz "Dangerous Edge".
Năm 2014, Goodfellow đã đề xuất GAN, bằng cách cho hai mạng nơ-ron đối kháng với nhau để học, có thể tạo ra những bức ảnh giống hệt như thật.
Năm 2015, Hinton và các cộng sự đã đề xuất thuật toán học sâu trên tạp chí "Nature", ngay lập tức gây ra tiếng vang lớn trong giới học thuật và công nghiệp.
Năm 2015, OpenAI được thành lập, nhận 1 tỷ đô la đầu tư.
Năm 2016, AlphaGo dựa trên công nghệ học sâu đã chiến đấu với Lee Sedol trong trận cờ vây giữa người và máy, giành chiến thắng với tỷ số 4:1.
Năm 2017, Google phát hành bài báo "Attention is all you need" đề xuất thuật toán Transformer, mô hình ngôn ngữ quy mô lớn bắt đầu xuất hiện.
Năm 2018, OpenAI phát hành GPT được xây dựng dựa trên thuật toán Transformer, là một trong những mô hình ngôn ngữ lớn nhất vào thời điểm đó.
Năm 2019, OpenAI phát hành GPT-2 với 1,5 tỷ tham số.
Năm 2020, GPT-3 do OpenAI phát triển có 175 tỷ tham số, gấp 100 lần GPT-2.
Năm 2021, OpenAI phát hành GPT-4, với 1.76 triệu tỷ tham số, gấp 10 lần GPT-3.
Ứng dụng ChatGPT dựa trên mô hình GPT-4 được ra mắt vào tháng 1 năm 2023, đạt một trăm triệu người dùng vào tháng 3, trở thành ứng dụng đạt một trăm triệu người dùng nhanh nhất trong lịch sử.
Chuỗi ngành công nghiệp học sâu
Các mô hình ngôn ngữ hiện tại đều dựa trên phương pháp học sâu dựa trên mạng nơ-ron. Với GPT dẫn đầu, các mô hình lớn đã tạo ra một làn sóng nhiệt huyết trí tuệ nhân tạo, nhiều người chơi đổ xô vào lĩnh vực này, nhu cầu về dữ liệu và sức mạnh tính toán trên thị trường đã gia tăng mạnh mẽ. Do đó, trong phần báo cáo này, chúng tôi chủ yếu khám phá chuỗi công nghiệp của thuật toán học sâu, trong ngành AI do thuật toán học sâu dẫn dắt, các mối quan hệ giữa các bên liên quan là như thế nào, tình hình hiện tại và mối quan hệ cung cầu của các bên đó là gì, và sự phát triển trong tương lai sẽ ra sao.
Trước tiên, cần phải làm rõ rằng trong quá trình huấn luyện các mô hình lớn như GPT dựa trên công nghệ Transformer, có tổng cộng ba bước.
Trước khi đào tạo, do dựa trên Transformer, bộ chuyển đổi cần chuyển đổi đầu vào văn bản thành giá trị số, quá trình này được gọi là "Tokenization", sau đó những giá trị này được gọi là Token. Nói chung, một từ hoặc ký tự tiếng Anh có thể được coi như một Token, trong khi mỗi chữ Hán có thể được coi như hai Token. Đây cũng là đơn vị cơ bản được sử dụng trong định giá GPT.
Bước đầu tiên, tiền huấn luyện. Bằng cách cung cấp đủ cặp dữ liệu cho lớp đầu vào để tìm kiếm các tham số tốt nhất của từng nơ-ron trong mô hình, quá trình này cần rất nhiều dữ liệu và cũng là quá trình tốn nhiều sức mạnh tính toán nhất, vì phải lặp đi lặp lại các nơ-ron thử nghiệm với nhiều tham số khác nhau. Sau khi một lô cặp dữ liệu được huấn luyện xong, thường sẽ sử dụng cùng một lô dữ liệu để huấn luyện lần thứ hai nhằm lặp lại các tham số.
Bước thứ hai, tinh chỉnh. Tinh chỉnh là việc cung cấp một lượng dữ liệu nhỏ nhưng chất lượng rất cao để huấn luyện, sự thay đổi này sẽ giúp đầu ra của mô hình có chất lượng cao hơn, vì việc huấn luyện trước cần một lượng lớn dữ liệu, nhưng nhiều dữ liệu có thể có sai sót hoặc chất lượng thấp. Bước tinh chỉnh có thể nâng cao chất lượng của mô hình thông qua dữ liệu chất lượng cao.
Bước ba, học tăng cường. Đầu tiên sẽ xây dựng một mô hình hoàn toàn mới, được gọi là "mô hình phần thưởng", mục đích của mô hình này rất đơn giản, đó là sắp xếp các kết quả đầu ra. Sau đó, sử dụng mô hình này để xác định xem đầu ra của mô hình lớn có chất lượng cao hay không, từ đó có thể sử dụng một mô hình phần thưởng để tự động lặp lại các tham số của mô hình lớn. ( nhưng đôi khi cũng cần có sự tham gia của con người để đánh giá chất lượng đầu ra của mô hình )
Nói ngắn gọn, trong quá trình huấn luyện mô hình lớn, việc tiền huấn luyện có yêu cầu rất cao về lượng dữ liệu, và sức mạnh tính toán GPU cần thiết cũng nhiều nhất, trong khi việc tinh chỉnh cần dữ liệu chất lượng cao hơn để cải thiện các tham số, học tăng cường có thể lặp đi lặp lại các tham số thông qua một mô hình thưởng để xuất ra kết quả chất lượng cao hơn.
Trong quá trình huấn luyện, số lượng tham số càng nhiều thì khả năng tổng quát càng cao. Do đó, hiệu suất của mô hình lớn chủ yếu được quyết định bởi ba yếu tố: số lượng tham số, khối lượng và chất lượng dữ liệu, và sức mạnh tính toán, ba yếu tố này cùng nhau ảnh hưởng đến chất lượng kết quả và khả năng tổng quát của mô hình lớn.
Giả sử số lượng tham số là p, khối lượng dữ liệu là n( tính theo số lượng Token ), thì chúng ta có thể ước lượng khối lượng tính toán cần thiết thông qua quy tắc chung, từ đó có thể dự đoán tình hình cần mua sức mạnh tính toán cũng như thời gian huấn luyện.
Công suất tính toán thường được đo bằng Flops, đại diện cho một phép toán số thực. Theo quy tắc kinh nghiệm thực tiễn, để tiền huấn luyện một mô hình lớn, cần khoảng 6np Flops, 6 được coi là hằng số trong ngành. Còn suy diễn (Inference là quá trình chúng ta nhập một dữ liệu và chờ đợi đầu ra từ mô hình lớn ), được chia thành hai phần, nhập n token, xuất n token, vậy tổng cộng cần khoảng 2np Flops.
Trong giai đoạn đầu, việc đào tạo được hỗ trợ bởi sức mạnh tính toán từ chip CPU, nhưng sau đó bắt đầu dần dần sử dụng GPU thay thế, như chip A100, H100 của Nvidia. Bởi vì CPU được sử dụng như một tính toán tổng quát, nhưng GPU có thể được sử dụng như một tính toán chuyên dụng, với hiệu suất năng lượng vượt xa CPU. GPU thực hiện các phép toán số thực chủ yếu thông qua một mô-đun gọi là Tensor Core. Do đó, các chip thông thường có dữ liệu Flops dưới độ chính xác FP16 / FP32, điều này đại diện cho khả năng tính toán chính của nó, cũng là một trong những chỉ số chính để đánh giá chip.
Chúng ta có thể thấy rằng khối lượng tính toán khổng lồ này cần nhiều chip tiên tiến cùng nhau tính toán để thực hiện một lần tiền huấn luyện, và số lượng tham số của GPT-4 gấp mười lần so với GPT-3, có nghĩa là ngay cả khi khối lượng dữ liệu không thay đổi, số lượng chip cần mua cũng phải tăng gấp mười lần, và số lượng Token của GPT-4 là 13 nghìn tỷ, cũng gấp mười lần so với GPT-3, cuối cùng, GPT-4 có thể cần hơn 100 lần sức mạnh tính toán của chip.
Trong quá trình huấn luyện mô hình lớn, việc lưu trữ dữ liệu cũng là một vấn đề, vì lượng dữ liệu rất lớn, trong khi bộ nhớ GPU thường nhỏ, do đó khi không thể chứa hết dữ liệu trong bộ nhớ, cần xem xét băng thông của chip, tức là tốc độ truyền dữ liệu từ ổ cứng đến bộ nhớ. Đồng thời, vì chúng ta sẽ không chỉ sử dụng một chip, nên cần áp dụng phương pháp học liên kết, trong đó nhiều chip GPU cùng huấn luyện một mô hình lớn, điều này liên quan đến tốc độ truyền giữa các chip GPU. Vì vậy, trong nhiều trường hợp, yếu tố hoặc chi phí hạn chế thực tiễn huấn luyện mô hình cuối cùng không nhất thiết là khả năng tính toán của chip, mà nhiều khi có thể là băng thông của chip. Bởi vì việc truyền dữ liệu chậm sẽ dẫn đến thời gian chạy mô hình kéo dài, từ đó làm tăng chi phí điện năng.
Mối quan hệ giữa Crypto và AI
Công nghệ ZK đã giúp blockchain phát triển, biến nó thành tư tưởng phi tập trung + phi tín nhiệm. Chúng ta trở về thời điểm ban đầu của sự sáng tạo blockchain, đó là chuỗi Bitcoin. Trong bài luận của Satoshi Nakamoto, ông đã gọi nó là một hệ thống chuyển giao giá trị phi tín nhiệm. Sau đó, một nền tảng hợp đồng thông minh phi tập trung, phi tín nhiệm và trao đổi giá trị đã được ra mắt.
Quay trở lại bản chất, chúng tôi cho rằng toàn bộ mạng lưới blockchain chính là một mạng lưới giá trị, mỗi giao dịch đều là sự chuyển đổi giá trị dựa trên token cơ sở. Giá trị ở đây được thể hiện dưới dạng Token, và Tokenomics chính là quy tắc thể hiện giá trị cụ thể của Token.
Trong internet truyền thống, việc tạo ra giá trị được thanh toán bằng P/E, có một hình thức cuối cùng thể hiện, đó là giá cổ phiếu. Tất cả lưu lượng, giá trị, ảnh hưởng đều hình thành dòng tiền của doanh nghiệp, dòng tiền này là sự thể hiện cuối cùng của giá trị, cuối cùng được quy đổi thành P/E phản ánh vào giá cổ phiếu và vốn hóa thị trường.
Tuy nhiên, đối với mạng Ethereum, ETH là biểu hiện của nhiều giá trị trong mạng Ethereum, nó không chỉ có thể tạo ra dòng tiền ổn định thông qua việc staking, mà còn đóng vai trò là phương tiện trao đổi giá trị, phương tiện lưu trữ giá trị, hàng hóa tiêu dùng cho các hoạt động trong mạng, v.v. Hơn nữa, nó còn đóng vai trò là lớp bảo vệ an toàn Restaking, phí Gas cho hệ sinh thái Layer2, v.v.
Tokenomics rất quan trọng, kinh tế học token có thể quy định các tài sản thanh toán trong hệ sinh thái ( tức là giá trị tương đối của token gốc ) của mạng. Mặc dù chúng ta không thể định giá cho từng chiều, nhưng chúng ta đã có sự hiện diện của giá trị đa chiều, đó là giá của token. Giá trị này vượt xa hình thức chứng khoán của một doanh nghiệp. Khi token được gán cho mạng và loại token này được lưu thông, tương tự như tất cả Q币 của Tencent có số lượng giới hạn, cơ chế lạm phát và giảm phát.
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
AI x Tài sản tiền điện tử:Từ phát triển công nghệ đến phân tích toàn cảnh chuỗi ngành
AI x Crypto: Từ số không đến đỉnh cao
Giới thiệu
Sự phát triển gần đây của ngành trí tuệ nhân tạo được một số người coi là cuộc cách mạng công nghiệp lần thứ tư. Sự xuất hiện của các mô hình lớn đã nâng cao đáng kể hiệu suất của nhiều ngành nghề khác nhau, ước tính đã giúp Mỹ nâng cao khoảng 20% hiệu suất lao động. Đồng thời, khả năng tổng quát mà các mô hình lớn mang lại được coi là một mô hình thiết kế phần mềm mới, so với việc thiết kế mã chính xác trong quá khứ, thiết kế phần mềm hiện tại chủ yếu là tích hợp các khung mô hình lớn tổng quát vào phần mềm, các phần mềm này có thể thể hiện tốt hơn và hỗ trợ đầu vào và đầu ra với nhiều kiểu dữ liệu hơn. Công nghệ học sâu thực sự đã mang đến một làn sóng thịnh vượng mới cho ngành AI, trào lưu này cũng đã mở rộng đến ngành công nghiệp tiền điện tử.
Báo cáo này sẽ thảo luận chi tiết về lịch sử phát triển của ngành AI, phân loại công nghệ và ảnh hưởng của công nghệ học sâu đến ngành. Sau đó, sẽ phân tích sâu về tình trạng và xu hướng phát triển của chuỗi công nghiệp trong học sâu như GPU, điện toán đám mây, nguồn dữ liệu, thiết bị biên, v.v. Cuối cùng, sẽ thảo luận về mối quan hệ giữa tiền điện tử và ngành AI từ bản chất, và sắp xếp lại cấu trúc chuỗi công nghiệp AI liên quan đến tiền điện tử.
Lịch sử phát triển của ngành AI
Ngành AI bắt đầu từ những năm 1950, để hiện thực hóa tầm nhìn về trí tuệ nhân tạo, giới học thuật và công nghiệp đã phát triển nhiều trường phái khác nhau trong các bối cảnh ngành học khác nhau qua các thời kỳ.
Công nghệ trí tuệ nhân tạo hiện đại chủ yếu sử dụng thuật ngữ "học máy", với ý tưởng là để máy tính dựa vào dữ liệu lặp đi lặp lại trong các nhiệm vụ để cải thiện hiệu suất hệ thống. Các bước chính là gửi dữ liệu vào thuật toán, sử dụng dữ liệu này để đào tạo mô hình, kiểm tra triển khai mô hình, và sử dụng mô hình để hoàn thành nhiệm vụ dự đoán tự động.
Hiện nay, học máy có ba trường phái chính, lần lượt là kết nối chủ nghĩa, ký hiệu chủ nghĩa và hành vi chủ nghĩa, lần lượt mô phỏng hệ thần kinh, tư duy và hành vi của con người.
Hiện nay, chủ nghĩa liên kết với đại diện là mạng nơ-ron đang chiếm ưu thế ( còn được gọi là học sâu ), nguyên nhân chính là do kiến trúc này có một lớp đầu vào, một lớp đầu ra, nhưng có nhiều lớp ẩn. Một khi số lượng lớp và nơ-ron ( cũng như số lượng tham số ) đủ nhiều, sẽ có đủ cơ hội để phù hợp với các nhiệm vụ phức tạp tổng quát. Thông qua việc nhập dữ liệu, có thể liên tục điều chỉnh các tham số nơ-ron, sau nhiều lần xử lý dữ liệu, nơ-ron sẽ đạt đến trạng thái tối ưu ( tham số ), đây cũng là nguồn gốc của "độ sâu" - đủ số lượng lớp và nơ-ron.
Công nghệ học sâu dựa trên mạng nơ-ron, cũng có nhiều lần lặp và tiến hóa kỹ thuật, từ mạng nơ-ron sớm, đến mạng nơ-ron hồi tiếp, RNN, CNN, GAN, cuối cùng tiến hóa thành các mô hình lớn hiện đại như GPT sử dụng công nghệ Transformer. Công nghệ Transformer chỉ là một hướng tiến hóa của mạng nơ-ron, đã thêm một bộ chuyển đổi, dùng để mã hóa tất cả các kiểu dữ liệu ( như âm thanh, video, hình ảnh, v.v. ) thành các giá trị tương ứng để biểu thị. Sau đó được đưa vào mạng nơ-ron, như vậy mạng nơ-ron có thể khớp bất kỳ loại dữ liệu nào, tức là thực hiện đa mô hình.
Sự phát triển của AI đã trải qua ba làn sóng công nghệ:
Làn sóng đầu tiên diễn ra vào những năm 1960, mười năm sau khi công nghệ AI được đưa ra, là do sự phát triển của công nghệ ký hiệu. Công nghệ này giải quyết các vấn đề xử lý ngôn ngữ tự nhiên tổng quát và đối thoại giữa người và máy. Cùng thời điểm đó, hệ thống chuyên gia ra đời, đây là một hệ thống có kiến thức hóa học rất mạnh, thông qua các câu hỏi để suy diễn và tạo ra câu trả lời giống như một chuyên gia hóa học.
Làn sóng công nghệ AI thứ hai xảy ra vào năm 1997, khi IBM Deep Blue thắng kiện vô địch cờ vua Kasparov với tỷ số 3.5:2.5, chiến thắng này được coi là một cột mốc trong lịch sử trí tuệ nhân tạo.
Làn sóng công nghệ AI thứ ba diễn ra vào năm 2006. Ba ông lớn trong lĩnh vực học sâu đã đưa ra khái niệm về học sâu, một thuật toán dựa trên kiến trúc mạng nơ-ron nhân tạo để học biểu diễn dữ liệu. Sau đó, các thuật toán học sâu dần tiến hóa, từ RNN, GAN đến Transformer và Stable Diffusion, những thuật toán này cùng nhau định hình làn sóng công nghệ thứ ba, cũng là thời kỳ hoàng kim của liên kết.
Nhiều sự kiện mang tính biểu tượng cũng đã xuất hiện dần dần cùng với việc khám phá và tiến bộ của công nghệ học sâu, bao gồm:
Năm 2011, Watson của IBM đã đánh bại con người để giành chiến thắng trong chương trình quiz "Dangerous Edge".
Năm 2014, Goodfellow đã đề xuất GAN, bằng cách cho hai mạng nơ-ron đối kháng với nhau để học, có thể tạo ra những bức ảnh giống hệt như thật.
Năm 2015, Hinton và các cộng sự đã đề xuất thuật toán học sâu trên tạp chí "Nature", ngay lập tức gây ra tiếng vang lớn trong giới học thuật và công nghiệp.
Năm 2015, OpenAI được thành lập, nhận 1 tỷ đô la đầu tư.
Năm 2016, AlphaGo dựa trên công nghệ học sâu đã chiến đấu với Lee Sedol trong trận cờ vây giữa người và máy, giành chiến thắng với tỷ số 4:1.
Năm 2017, Google phát hành bài báo "Attention is all you need" đề xuất thuật toán Transformer, mô hình ngôn ngữ quy mô lớn bắt đầu xuất hiện.
Năm 2018, OpenAI phát hành GPT được xây dựng dựa trên thuật toán Transformer, là một trong những mô hình ngôn ngữ lớn nhất vào thời điểm đó.
Năm 2019, OpenAI phát hành GPT-2 với 1,5 tỷ tham số.
Năm 2020, GPT-3 do OpenAI phát triển có 175 tỷ tham số, gấp 100 lần GPT-2.
Năm 2021, OpenAI phát hành GPT-4, với 1.76 triệu tỷ tham số, gấp 10 lần GPT-3.
Ứng dụng ChatGPT dựa trên mô hình GPT-4 được ra mắt vào tháng 1 năm 2023, đạt một trăm triệu người dùng vào tháng 3, trở thành ứng dụng đạt một trăm triệu người dùng nhanh nhất trong lịch sử.
Chuỗi ngành công nghiệp học sâu
Các mô hình ngôn ngữ hiện tại đều dựa trên phương pháp học sâu dựa trên mạng nơ-ron. Với GPT dẫn đầu, các mô hình lớn đã tạo ra một làn sóng nhiệt huyết trí tuệ nhân tạo, nhiều người chơi đổ xô vào lĩnh vực này, nhu cầu về dữ liệu và sức mạnh tính toán trên thị trường đã gia tăng mạnh mẽ. Do đó, trong phần báo cáo này, chúng tôi chủ yếu khám phá chuỗi công nghiệp của thuật toán học sâu, trong ngành AI do thuật toán học sâu dẫn dắt, các mối quan hệ giữa các bên liên quan là như thế nào, tình hình hiện tại và mối quan hệ cung cầu của các bên đó là gì, và sự phát triển trong tương lai sẽ ra sao.
Trước tiên, cần phải làm rõ rằng trong quá trình huấn luyện các mô hình lớn như GPT dựa trên công nghệ Transformer, có tổng cộng ba bước.
Trước khi đào tạo, do dựa trên Transformer, bộ chuyển đổi cần chuyển đổi đầu vào văn bản thành giá trị số, quá trình này được gọi là "Tokenization", sau đó những giá trị này được gọi là Token. Nói chung, một từ hoặc ký tự tiếng Anh có thể được coi như một Token, trong khi mỗi chữ Hán có thể được coi như hai Token. Đây cũng là đơn vị cơ bản được sử dụng trong định giá GPT.
Bước đầu tiên, tiền huấn luyện. Bằng cách cung cấp đủ cặp dữ liệu cho lớp đầu vào để tìm kiếm các tham số tốt nhất của từng nơ-ron trong mô hình, quá trình này cần rất nhiều dữ liệu và cũng là quá trình tốn nhiều sức mạnh tính toán nhất, vì phải lặp đi lặp lại các nơ-ron thử nghiệm với nhiều tham số khác nhau. Sau khi một lô cặp dữ liệu được huấn luyện xong, thường sẽ sử dụng cùng một lô dữ liệu để huấn luyện lần thứ hai nhằm lặp lại các tham số.
Bước thứ hai, tinh chỉnh. Tinh chỉnh là việc cung cấp một lượng dữ liệu nhỏ nhưng chất lượng rất cao để huấn luyện, sự thay đổi này sẽ giúp đầu ra của mô hình có chất lượng cao hơn, vì việc huấn luyện trước cần một lượng lớn dữ liệu, nhưng nhiều dữ liệu có thể có sai sót hoặc chất lượng thấp. Bước tinh chỉnh có thể nâng cao chất lượng của mô hình thông qua dữ liệu chất lượng cao.
Bước ba, học tăng cường. Đầu tiên sẽ xây dựng một mô hình hoàn toàn mới, được gọi là "mô hình phần thưởng", mục đích của mô hình này rất đơn giản, đó là sắp xếp các kết quả đầu ra. Sau đó, sử dụng mô hình này để xác định xem đầu ra của mô hình lớn có chất lượng cao hay không, từ đó có thể sử dụng một mô hình phần thưởng để tự động lặp lại các tham số của mô hình lớn. ( nhưng đôi khi cũng cần có sự tham gia của con người để đánh giá chất lượng đầu ra của mô hình )
Nói ngắn gọn, trong quá trình huấn luyện mô hình lớn, việc tiền huấn luyện có yêu cầu rất cao về lượng dữ liệu, và sức mạnh tính toán GPU cần thiết cũng nhiều nhất, trong khi việc tinh chỉnh cần dữ liệu chất lượng cao hơn để cải thiện các tham số, học tăng cường có thể lặp đi lặp lại các tham số thông qua một mô hình thưởng để xuất ra kết quả chất lượng cao hơn.
Trong quá trình huấn luyện, số lượng tham số càng nhiều thì khả năng tổng quát càng cao. Do đó, hiệu suất của mô hình lớn chủ yếu được quyết định bởi ba yếu tố: số lượng tham số, khối lượng và chất lượng dữ liệu, và sức mạnh tính toán, ba yếu tố này cùng nhau ảnh hưởng đến chất lượng kết quả và khả năng tổng quát của mô hình lớn.
Giả sử số lượng tham số là p, khối lượng dữ liệu là n( tính theo số lượng Token ), thì chúng ta có thể ước lượng khối lượng tính toán cần thiết thông qua quy tắc chung, từ đó có thể dự đoán tình hình cần mua sức mạnh tính toán cũng như thời gian huấn luyện.
Công suất tính toán thường được đo bằng Flops, đại diện cho một phép toán số thực. Theo quy tắc kinh nghiệm thực tiễn, để tiền huấn luyện một mô hình lớn, cần khoảng 6np Flops, 6 được coi là hằng số trong ngành. Còn suy diễn (Inference là quá trình chúng ta nhập một dữ liệu và chờ đợi đầu ra từ mô hình lớn ), được chia thành hai phần, nhập n token, xuất n token, vậy tổng cộng cần khoảng 2np Flops.
Trong giai đoạn đầu, việc đào tạo được hỗ trợ bởi sức mạnh tính toán từ chip CPU, nhưng sau đó bắt đầu dần dần sử dụng GPU thay thế, như chip A100, H100 của Nvidia. Bởi vì CPU được sử dụng như một tính toán tổng quát, nhưng GPU có thể được sử dụng như một tính toán chuyên dụng, với hiệu suất năng lượng vượt xa CPU. GPU thực hiện các phép toán số thực chủ yếu thông qua một mô-đun gọi là Tensor Core. Do đó, các chip thông thường có dữ liệu Flops dưới độ chính xác FP16 / FP32, điều này đại diện cho khả năng tính toán chính của nó, cũng là một trong những chỉ số chính để đánh giá chip.
Chúng ta có thể thấy rằng khối lượng tính toán khổng lồ này cần nhiều chip tiên tiến cùng nhau tính toán để thực hiện một lần tiền huấn luyện, và số lượng tham số của GPT-4 gấp mười lần so với GPT-3, có nghĩa là ngay cả khi khối lượng dữ liệu không thay đổi, số lượng chip cần mua cũng phải tăng gấp mười lần, và số lượng Token của GPT-4 là 13 nghìn tỷ, cũng gấp mười lần so với GPT-3, cuối cùng, GPT-4 có thể cần hơn 100 lần sức mạnh tính toán của chip.
Trong quá trình huấn luyện mô hình lớn, việc lưu trữ dữ liệu cũng là một vấn đề, vì lượng dữ liệu rất lớn, trong khi bộ nhớ GPU thường nhỏ, do đó khi không thể chứa hết dữ liệu trong bộ nhớ, cần xem xét băng thông của chip, tức là tốc độ truyền dữ liệu từ ổ cứng đến bộ nhớ. Đồng thời, vì chúng ta sẽ không chỉ sử dụng một chip, nên cần áp dụng phương pháp học liên kết, trong đó nhiều chip GPU cùng huấn luyện một mô hình lớn, điều này liên quan đến tốc độ truyền giữa các chip GPU. Vì vậy, trong nhiều trường hợp, yếu tố hoặc chi phí hạn chế thực tiễn huấn luyện mô hình cuối cùng không nhất thiết là khả năng tính toán của chip, mà nhiều khi có thể là băng thông của chip. Bởi vì việc truyền dữ liệu chậm sẽ dẫn đến thời gian chạy mô hình kéo dài, từ đó làm tăng chi phí điện năng.
Mối quan hệ giữa Crypto và AI
Công nghệ ZK đã giúp blockchain phát triển, biến nó thành tư tưởng phi tập trung + phi tín nhiệm. Chúng ta trở về thời điểm ban đầu của sự sáng tạo blockchain, đó là chuỗi Bitcoin. Trong bài luận của Satoshi Nakamoto, ông đã gọi nó là một hệ thống chuyển giao giá trị phi tín nhiệm. Sau đó, một nền tảng hợp đồng thông minh phi tập trung, phi tín nhiệm và trao đổi giá trị đã được ra mắt.
Quay trở lại bản chất, chúng tôi cho rằng toàn bộ mạng lưới blockchain chính là một mạng lưới giá trị, mỗi giao dịch đều là sự chuyển đổi giá trị dựa trên token cơ sở. Giá trị ở đây được thể hiện dưới dạng Token, và Tokenomics chính là quy tắc thể hiện giá trị cụ thể của Token.
Trong internet truyền thống, việc tạo ra giá trị được thanh toán bằng P/E, có một hình thức cuối cùng thể hiện, đó là giá cổ phiếu. Tất cả lưu lượng, giá trị, ảnh hưởng đều hình thành dòng tiền của doanh nghiệp, dòng tiền này là sự thể hiện cuối cùng của giá trị, cuối cùng được quy đổi thành P/E phản ánh vào giá cổ phiếu và vốn hóa thị trường.
Tuy nhiên, đối với mạng Ethereum, ETH là biểu hiện của nhiều giá trị trong mạng Ethereum, nó không chỉ có thể tạo ra dòng tiền ổn định thông qua việc staking, mà còn đóng vai trò là phương tiện trao đổi giá trị, phương tiện lưu trữ giá trị, hàng hóa tiêu dùng cho các hoạt động trong mạng, v.v. Hơn nữa, nó còn đóng vai trò là lớp bảo vệ an toàn Restaking, phí Gas cho hệ sinh thái Layer2, v.v.
Tokenomics rất quan trọng, kinh tế học token có thể quy định các tài sản thanh toán trong hệ sinh thái ( tức là giá trị tương đối của token gốc ) của mạng. Mặc dù chúng ta không thể định giá cho từng chiều, nhưng chúng ta đã có sự hiện diện của giá trị đa chiều, đó là giá của token. Giá trị này vượt xa hình thức chứng khoán của một doanh nghiệp. Khi token được gán cho mạng và loại token này được lưu thông, tương tự như tất cả Q币 của Tencent có số lượng giới hạn, cơ chế lạm phát và giảm phát.