1 Травня, 2025
Китайський DeepSeek запускає новий AI з відкритим кодом після того, як R1 взяв на себе OpenAI thumbnail
CoinTelegraph

Китайський DeepSeek запускає новий AI з відкритим кодом після того, як R1 взяв на себе OpenAI

Китайська компанія з розвитку штучної розвідки DeepSeek випустила нову модель великої мови з відкритим вагою (LLM) .Депсект завантажив свою новітню модель, Prover V2, до хостингової служби, що обіймає обличчя 30 квітня. Остання модель, опублікована під дозвільною ліцензією MIT з відкритим кодом, має на меті вирішити перевірку математики. Сховище DeepSeek-Prover-V2. Джерело: HuggingfaceProver V2 має 671 мільярд параметрів, що робить його значно більшим, ніж його попередники, Prover V1 та Prover V1.5, які були випущені в серпні 2024 року. Документ, що супроводжує першу версію, пояснила, що модель була навчена перекладати проблеми математики в формальну логіку, використовуючи мову програмування Lean 4 – інструмент, широко використовуваний для підтвердження теорем. Розробники кажуть, що Comper V2 стискає математичні знання у формат, який дозволяє йому генерувати та перевірити докази, потенційно допомагаючи дослідженню та освіті. сервери. Тим не менш, варто зазначити, що найсучасніші LLM вимагають обладнання, до якого більшість людей не мають доступу. Це пояснюється тим, що ці моделі, як правило, мають велику кількість параметрів, що призводить до великих файлів, які потребують багато оперативної пам’яті або VRAM (пам’яті GPU) та обробки живлення для запуску. Нова модель V2 Prover V2 важить приблизно 650 гігабайт, і, як очікується, вона буде бігати з оперативної пам’яті або VRAM. Щоб знизити їх до такого розміру, ваги V2 Prover були квантовані до 8-бітної точки плаваючої точки, що означає, що кожен параметр був наближений до половини простору звичайних 16 бітів, при цьому трохи цифрова цифра. Це ефективно вдвічі зменшує масу моделі. Продовж V1 заснований на семимільярдній моделі Deepseekmath і був належним чином налаштований на синтетичні дані. Синтетичні дані стосуються даних, що використовуються для навчання моделей AI, які, в свою чергу, також генерували моделями AI, з даними, що створюються людиною, зазвичай розглядаються як все більш дефіцитне джерело даних вищої якості. Попередження V1.5, як повідомляється, покращилося в попередній версії, оптимізуючи як тренування, так і на виконання та досягаючи більшої точності в бенчмарках. Поки що вдосконалення, запроваджені Prover V2, незрозумілі, оскільки під час написання не було опубліковано жодна дослідницька робота чи інша інформація. Кількість параметрів у вагах V2 W2 говорить про те, що він, ймовірно, базується на попередній моделі компанії R1. Коли вона була вперше випущена, R1 склав хвилі в просторі AI з його продуктивністю, порівнянною з тодішньою найсучаснішою моделлю O1 Opeai. Повідомлена: Південна Корея призупиняє завантаження DeepSeek над даними користувачів, що стосується важливості відкритої ваги, випуску ваги LLM є суперечливою темою. З одного боку, це демократизуюча сила, яка дозволяє громадськості отримувати доступ до AI на власних умовах, не покладаючись на інфраструктуру приватної компанії. Випуск R1 таким чином викликало проблеми безпеки, а деякі описали його як “моменту в Китаї”. Прихильники з відкритим кодом зраділи, що DeepSeek продовжував, де META припинився з випуском своєї серії Llama of Open-Source AI-моделей, що підтверджує, що Open AI є серйозним презентацією для закритого AI OpenAI. Доступність цих моделей також продовжує вдосконалюватись. Доступні мовні моделі, навіть користувачі без доступу до суперкомп’ютера, який коштує дорожче, ніж середній будинок у більшій частині світу, може працювати LLMS на місцевому рівні. Це в першу чергу завдяки двом методикам розвитку AI: дистиляція та квантування моделі. Дистилюляція стосується навчання компактної “студентської” мережі для повторного повторного поведінки більшої моделі “вчителя”, тому ви зберігаєте більшу частину продуктивності, одночасно вирізаючи параметри, щоб зробити його доступним для менш потужного обладнання. Квантування полягає у зменшенні числової точності ваги та активації моделі для зменшення розміру та підвищення швидкості висновку лише з незначною втратою точності. Приклад-це зменшення V2 від 16 до восьмикутних плаваючих точок, але подальше зменшення можливе шляхом вдвічі вдвічі. Обидві ці методи мають наслідки для продуктивності моделі, але зазвичай залишають модель значною мірою функціональною. R1 R1 перегонився на версії з ретрованими моделями LAMA та QWEN від 70 мільярдів параметрів до 1,5 мільярда параметрів. Найменший з цих моделей може навіть надійно працювати на деяких мобільних пристроях.”, – Напишіть: cointelegraph.com

Китайський DeepSeek запускає новий AI з відкритим кодом після того, як R1 взяв на себе OpenAI

Китайська компанія з розвитку штучної розвідки DeepSeek випустила нову модель великої мови з відкритим вагою (LLM).

DeepSeek завантажив свою найновішу модель Prover V2 на хостинг-службу, що обіймає обличчя 30 квітня. Остання модель, опублікована під дозвільною ліцензією MIT з відкритим кодом, має на меті вирішити перевірку математики.

Китайський DeepSeek запускає новий AI з відкритим кодом після того, як R1 взяв на себе OpenAI Сховище DeepSeek-Prover-V2. Джерело: ОбійманняУ Prover V2 є 671 мільярд параметрів, що робить його значно більшим, ніж його попередники, Prover V1 та Prover V1.5, які були випущені в серпні 2024 року. Документ, що супроводжує першу версію, пояснила, що модель була навчана для перекладу проблем математичної конкуренції у формальну логіку, використовуючи мову програмування Lean 4 – інструмент, широко використовуваний для проведених теорем.

Розробники кажуть, що Prover V2 стискає математичні знання у формат, який дозволяє йому генерувати та перевіряти докази, потенційно допомагаючи дослідженню та освіті.

Пов’язаний: Ось чому DeepSeek розбив ваш біткойн та криптовалюту

Що це все означає?Модель, також неофіційно та неправильно, яку в просторі AI називають “ваги”, є файл або збір файлів, які дозволяють локально виконувати AI, не покладаючись на зовнішні сервери. Тим не менш, варто зазначити, що найсучасніші LLM вимагають обладнання, до якого більшість людей не мають доступу.

Це пояснюється тим, що ці моделі, як правило, мають велику кількість параметрів, що призводить до великих файлів, які потребують багато оперативної пам’яті або VRAM (пам’яті GPU) та обробки живлення для запуску. Нова модель V2 Prover V2 важить приблизно 650 гігабайт і, як очікується, буде працювати з оперативної пам’яті або VRAM.

Щоб зменшити їх до такого розміру, ваги Prover V2 були квантовані до 8-бітової точки плаваючої точки, тобто кожен параметр був наближений до половини простору звичайних 16 біт, при цьому трохи є єдиною цифрою у двійкових числах. Це ефективно вдвічі зменшує масу моделі.

Prover V1 заснований на семимільярдній моделі Deepseekmath і був тонко налаштований на синтетичні дані. Синтетичні дані стосуються даних, що використовуються для тренувань моделей AI, які, в свою чергу, також генерували моделями AI, з даними, створеними людиною, зазвичай розглядаються як все більш дефіцитне джерело даних вищої якості.

Як повідомляється, Prover V1.5 покращився в попередній версії, оптимізуючи як навчання, так і виконання та досягаючи більшої точності в орієнтирах. Поки що вдосконалення, запроваджені Prover V2, незрозумілі, оскільки під час написання не було опубліковано жодна дослідницька робота чи інша інформація.

Кількість параметрів у вагах V2 W2 говорить про те, що він, ймовірно, базується на попередній моделі компанії R1. Коли він був вперше випущений, R1 зробив хвилі в просторі AI з його продуктивністю, порівнянною з тодішньою найсучаснішою моделлю O1 OpenAI.

Пов’язаний: Південна Корея призупиняє завантаження DeepSeek через проблеми даних користувачів

Важливість відкритих вагПублічно випустити ваги LLMS – це суперечлива тема. З одного боку, це демократизуюча сила, яка дозволяє громадськості отримувати доступ до AI на власних умовах, не покладаючись на інфраструктуру приватної компанії.

З іншого боку, це означає, що компанія не може вступити та запобігти зловживанню моделі, застосовуючи певні обмеження щодо небезпечних запитів користувачів. Випуск R1 таким чином викликало проблеми безпеки, а деякі описали це як “момент Китаю”.

Прихильники з відкритим кодом зраділи, що DeepSeek продовжував, де META припинився випуском своєї серії Llama of Open-Source AI моделей, доводячи, що Open AI є серйозним суперником для закритого ШІ OpenAI. Доступність цих моделей також продовжує вдосконалюватися.

Доступні мовні моделіТепер навіть користувачі без доступу до суперкомп’ютера, який коштує дорожче, ніж середній будинок у значній частині світу, може працювати LLMS на місцевому рівні. Це в першу чергу завдяки двом методикам розвитку AI: дистиляції та квантування моделі.

Перегонки відноситься до навчання компактної «студентської» мережі для повторного використання поведінки більшої моделі «вчителя», тому ви зберігаєте більшу частину продуктивності, вирізаючи параметри, щоб зробити її доступною для менш потужного обладнання. Квантність полягає у зменшенні числової точності ваги та активації моделі до зменшення розміру та підвищення швидкості висновку лише з незначною втратою точності.

Прикладом є зменшення Perver V2 від 16 до восьмитатом плаваючих точок, але можливі подальші зменшення шляхом вдвічі вдвічі. Обидві ці методи мають наслідки для продуктивності моделі, але зазвичай залишають модель в основному функціональною.

R1 DeepSeek був переганяється на версії з ретрованими моделями LLAMA та QWEN від 70 мільярдів параметрів до 1,5 мільярда параметрів. Найменший з цих моделей може навіть надійно працювати на деяких мобільних пристроях.

Журнал: “Чорнобиль” потрібно було розбудити людей до ризиків AI, студії Ghibli Memes: AI Eye

ПОВ'ЯЗАНІ НОВИНИ

Polymarket ставає ставки на Марка Керні, коли канадці вирушають на виборчі дільниці

coin telegraph

Бітгет, лавинна форма криптовалют в Індії

coin telegraph

Трамп медіа розглядає криптовалюту та гаманець для потокової руки

coin telegraph

Залишити коментар

This website uses cookies to improve your experience. We'll assume you're ok with this, but you can opt-out if you wish. Accept Read More