9 lựa chọn thay thế mã nguồn mở tốt nhất cho GPT-3 bạn nên thử

9 lựa chọn thay thế mã nguồn mở tốt nhất cho GPT-3 bạn nên thử

Mặc dù GPT-3 với tư cách là một công nghệ đã được vài năm tuổi, nhưng nó đã gây ra một đợt chú ý khác vào tháng 11. 

Ngay sau OpenAI, các nhà phát triển GPT-3 đã công bố một ChatGPT đột phá. Nếu bạn đã bỏ lỡ tất cả những ồn ào vì bất kỳ lý do gì, chúng tôi sẽ mô tả ngắn gọn nó là gì và tại sao mọi người lại nói về nó.

Tuy nhiên, trọng tâm chính của chúng tôi hôm nay sẽ là các giải pháp thay thế GPT-3 mà bạn có thể sử dụng miễn phí. Vì vậy, hãy bắt đầu với những điều cơ bản và chuyển sang phần tổng quan về các chất tương tự nguồn mở cho công nghệ ồn ào này.

GPT-3 là gì?

Mô hình GPT-3 (viết tắt của Generative Pretraining Transformer) là một mô hình trí tuệ nhân tạo có thể tạo ra bất kỳ loại bản sao nào giống con người theo đúng nghĩa đen. GPT-3 đã “thử sức” với thơ, email, bản dịch, tweet và thậm chí cả mã hóa. Để tạo bất kỳ loại nội dung nào, chỉ cần một dấu nhắc nhỏ để đặt chủ đề.

Trên thực tế, GPT-3 là một mô hình ngôn ngữ lớn (LLM) hay nói cách khác là mạng thần kinh phức hợp, với hơn 175 tỷ tham số. Nó đã được đào tạo dựa trên một lượng thông tin khổng lồ từ khắp nơi trên internet (và "khổng lồ" có nghĩa là khoảng 700 GB dữ liệu).

9 mô hình AI thay thế GPT-3 miễn phí hàng đầu  >>>

Bây giờ bạn đã có ý tưởng về công nghệ mà chúng ta đang nói đến, hãy chuyển sang các đối thủ cạnh tranh của OpenAI GPT-3.

LỰA CHỌN theo Meta

Một giải pháp thay thế mã nguồn mở GPT-3 vững chắc khác đã được Meta phát hành vào tháng 5 năm 2022. Mô hình ngôn ngữ Biến áp được đào tạo trước mở (viết tắt là OPT) chứa 175B tham số. OPT đã được đào tạo trên nhiều bộ dữ liệu công khai, bao gồm The Pile và BookCorpus.

Đặc điểm nổi bật chính của nó là OPT kết hợp cả các mô hình được đào tạo trước và mã nguồn để sử dụng hoặc đào tạo chúng.

9 lựa chọn thay thế mã nguồn mở tốt nhất cho GPT-3 bạn nên thử


Hiện tại, nó chỉ có sẵn cho mục đích nghiên cứu theo giấy phép phi thương mại. Meta muốn trao quyền cho các phòng thí nghiệm giáo dục, chính phủ, tổ chức dân sự và nghiên cứu công nghiệp để nghiên cứu công nghệ sâu hơn và tìm ra các nguyên tắc cơ bản của việc sử dụng nó một cách có đạo đức.

Bằng cách chia sẻ OPT-175B, chúng tôi mong muốn giúp thúc đẩy nghiên cứu phát triển mô hình ngôn ngữ lớn có trách nhiệm và minh họa các giá trị về tính minh bạch và cởi mở trong lĩnh vực này.

Meta, "Dân chủ hóa quyền truy cập vào các mô hình ngôn ngữ quy mô lớn với OPT-175B"

AlexaTM của Amazon

Vào ngày 18 tháng 11 năm 2022, Amazon đã phát hành công khai AlexaTM 20B, một mô hình chuỗi2 trình tự đa ngôn ngữ quy mô lớn. Điều gì đặc biệt về nó? Nó sử dụng kiến trúc bộ mã hóa-giải mã và được đào tạo về sự kết hợp giữa mô hình hóa ngôn ngữ nhân quả (CLM) và các tác vụ khử nhiễu.

Nhờ đó, AlexaTM là một mô hình học vài bước tốt hơn so với các mô hình chỉ có bộ giải mã. Do đó, nó hoạt động tốt hơn trong các tác vụ dịch máy và tóm tắt 1 lần so với PaLM 540B của Google. Ngoài ra, trong thử nghiệm không bắn, mô hình này đứng đầu GPT-3 trên bộ dữ liệu SuperGlue và SQuADv2.

Đối với những thứ ít kỹ thuật hơn, AlexaTM hỗ trợ nhiều ngôn ngữ (như loại của nó ngụ ý), bao gồm tiếng Anh, tiếng Tây Ban Nha, tiếng Ả Rập, tiếng Đức, tiếng Hindi, tiếng Pháp, tiếng Nhật, tiếng Ý, tiếng Bồ Đào Nha và các ngôn ngữ khác.

Nhìn chung, điều này làm cho AlexaTM trở thành một đối thủ khá đáng chú ý đối với tất cả các LLM khác, dù miễn phí hay không.

GPT-J và GPT-NeoX của EleutherAI

GPT-J là một mô hình tự hồi quy tham số 6B nhỏ để tạo văn bản, hoàn toàn miễn phí sử dụng. Nó được đào tạo trên The Pile, một bộ dữ liệu với 22 tập hợp con của hơn 800 GB văn bản tiếng Anh.

Mặc dù có kích thước nhỏ nhưng mô hình này hoạt động gần giống như GPT-3 6.7B-param và tốt hơn so với người tiền nhiệm của nó, GPT-Neo. Cái sau có 2 phiên bản là 1,3 và 2,7 tỷ, đến tháng 2 năm 2022 thì phát triển thành GPT-NeoX, chứa thông số 20B.

Dưới đây là tổng quan nhanh về cách GPT-J và GPT-NeoX hoạt động so với các phiên bản OpenAI GPT-3.

Như bạn có thể thấy, có rất ít hoặc không có sự khác biệt về hiệu suất giữa các mẫu GPT-J và GPT-NeoX nguồn mở với các mẫu GPT-3 trả phí.

Mô hình ngôn ngữ Jurassic-1 của phòng thí nghiệm AI21

Jurassic-1 là một mô hình xử lý ngôn ngữ tự nhiên (NLP) tự hồi quy, có sẵn trong phiên bản beta mở cho các nhà phát triển và nhà nghiên cứu.

Tuy nhiên, nó không hoàn toàn là nguồn mở, nhưng khi đăng ký, bạn sẽ nhận được khoản tín dụng 90 đô la miễn phí. Bạn có thể sử dụng các khoản tín dụng đó trong sân chơi với các mẫu được thiết kế sẵn để viết lại, tóm tắt, viết, trò chuyện, soạn thảo đề cương, tweet, viết mã, v.v. Hơn nữa, bạn có thể tạo và đào tạo các mô hình tùy chỉnh của mình.

Jurassic-1 có thể trở thành đối thủ khá nặng ký của GPT-3, vì nó bao gồm 2 phần: J1-Jumbo, được đào tạo trên các thông số hơn 178B và J1-Large, bao gồm các thông số 7B. Điều này đã làm cho nó có các tham số 3B cao cấp hơn so với mô hình ngôn ngữ GPT-3.

CodeGen của Salesforce

Một giải pháp thay thế GPT-3 mã nguồn mở khác mà bạn không thể bỏ lỡ. Như bạn có thể đã đoán từ tên của nó, CodeGen là một mô hình ngôn ngữ quy mô lớn có thể viết chương trình, dựa trên lời nhắc văn bản đơn giản. Mô hình dựa trên khái niệm AI đàm thoại, nhằm mục đích thống nhất đầu vào sáng tạo của con người với khả năng mã hóa AI gần như không giới hạn.

Tương lai của mã hóa là sự giao thoa giữa ngôn ngữ của con người và máy tính — và AI đàm thoại là cầu nối hoàn hảo để kết nối cả hai

Silvio Savarese, EVP & Nhà khoa học trưởng, Nghiên cứu AI, Salesforce

Bản phát hành CodeGen có ba loại mô hình (NL, đa và đơn sắc) với các kích cỡ khác nhau (350M, 2B, 6B và 16B). Mỗi loại mô hình được đào tạo trên các bộ dữ liệu khác nhau:

Các mô hình NL sử dụng The Pile.

Nhiều mô hình dựa trên các mô hình NL và sử dụng kho văn bản có mã bằng các ngôn ngữ lập trình khác nhau.

Các mô hình đơn sắc dựa trên nhiều mô hình và sử dụng kho văn bản có mã Python.

Điều hấp dẫn nhất về CodeGen là ngay cả những người không có bất kỳ nền tảng công nghệ nào cũng có thể sử dụng nó. Tuy nhiên, kiến thức lập trình sẽ giúp đạt được các giải pháp tốt hơn và tinh tế hơn vì AI vẫn chưa hoàn hảo.

Megatron-Turing NLG của NVIDIA và Microsoft

LLM này là một trong những LLM lớn nhất, vì nó có hơn 530B thông số. Megatron-Turing NLG (Natural Language Generation) là kết quả của sự hợp tác giữa Microsoft và NVIDIA. Để đào tạo mô hình, họ đã sử dụng bộ dữ liệu The Pile và siêu máy tính Selene dựa trên NVIDIA DGX SuperPOD.

Nghiên cứu được công bố vào tháng 10 năm 2021 cho thấy Megatron-Turing NLG đặc biệt giỏi trong các nhiệm vụ tập phát triển PiQA và nhiệm vụ tập kiểm tra LAMBADA. Mô hình này cũng dự đoán trung bình hơn 50% trong các thử nghiệm không bắn và cải thiện những con số đó trong các thử nghiệm một và bốn lần.

Hiện tại, Microsoft và NVIDIA cung cấp quyền truy cập sớm vào Megatron-Turing NGL và mời các công ty khác tham gia nghiên cứu cùng họ. Mục tiêu chính của họ là phát triển các chính sách sử dụng AI có trách nhiệm và loại bỏ các phản ứng sai, độc tính và thiên vị trong các mô hình ngôn ngữ lớn.

LaMDA của Google

LaMDA là một Mô hình Ngôn ngữ tự hồi quy cho các Ứng dụng Hộp thoại, với kiến trúc chỉ dành cho bộ giải mã. Ngoại trừ trò chuyện tán gẫu về các chủ đề khác nhau, mô hình cũng có thể tạo danh sách và có thể được đào tạo để nói chuyện về một số chủ đề cụ thể theo miền.

Các mô hình hộp thoại có thể dễ dàng mở rộng quy mô và có thể đối phó với các phụ thuộc dài hạn. Điều này có nghĩa là họ có thể tính đến bối cảnh trước đó, không chỉ đầu vào hiện tại. Ngoài ra, họ hỗ trợ nối đất miền.

Chẳng hạn, các nhà nghiên cứu của Google đã cài đặt sẵn LaMDA trên một số vòng hộp thoại dành riêng cho vai trò để nó có thể đề xuất âm nhạc.

BLOOM 

LLM tự hồi quy BLOOM được phát triển bởi nhiều người đóng góp thông qua Hội thảo BigScience dưới dạng giải pháp thay thế nguồn mở GPT-3. Hơn 1000 nhà nghiên cứu AI đã tham gia dự án, bao gồm các chuyên gia từ Microsoft, NVIDIA, PyTorch và những người khác. BLOOM có sẵn cho bất kỳ cá nhân hoặc nhóm nhà nghiên cứu nào muốn nghiên cứu hiệu suất và hành vi của các mô hình ngôn ngữ lớn và đồng ý với các điều khoản cấp phép của mô hình.

Mô hình đã được đào tạo trên các tham số 176B từ tháng 3 đến tháng 7 năm 2022 và có thể xử lý 46 ngôn ngữ và 13 ngôn ngữ lập trình. Ngoài ra, nó có các phiên bản nhỏ hơn chứa ít tham số hơn.

BLOOM có kiến trúc chỉ dành cho bộ giải mã, vì nó được tạo ra dựa trên Megatron-LM, tiền thân của tham số 8.3B của Megatron-Turing NLG.

BERT của Google

BERT (Đại diện bộ mã hóa hai chiều từ Transformers) là một trong những mô hình ngôn ngữ biến áp lâu đời nhất, có nguồn mở vào năm 2018 và được đào tạo trước trên các văn bản từ Wikipedia. Kể từ năm 2019, Google đã sử dụng nó để hiểu rõ hơn về mục đích tìm kiếm và đưa ra dự đoán truy vấn phù hợp hơn.

Về bản chất, BERT là một biểu diễn ngôn ngữ hai chiều, không giám sát. Điều này có nghĩa là để tiếp tục câu, mô hình có tính đến bối cảnh trước đó và các điều kiện sẽ theo sau nó.


Apphay

Tôi là Lê Quản trị viên trang Apphay.net cũng có niềm yêu thích khám phá nhanh các app ứng dụng hay trên PC và điện thoại

Đăng nhận xét

Mới hơn Cũ hơn