Добавьте искусственный интеллект на свой компьютер с помощью LM Studio

Если 2023 год был годом сервисов на основе искусственного интеллекта, то 2024 год станет годом искусственного интеллекта на устройстве, то есть переноса вычислений, связанных с моделями, на наш ПК, смартфон и т. д. В основном мы обнаружим это в приложениях, включающих функции на основе искусственного интеллекта, но у нас также есть программное обеспечение, в котором искусственный интеллект является самоцелью, как в случае с LM Studio, которое позволяет нам тестировать большое количество обширных языковых моделей. (магистр права).

Это наверняка будет вам знакомо по другим опциям, таким как «Чат с RTX», приложению, о котором мы уже рассказывали вам несколько недель назад и которое следует модели, максимально упрощающей его использование, то есть установку и начало работы. поговорить.” » с моделью (хотя это также позволяет внести некоторые дополнительные настройки, например, добавить свои собственные данные для настройки ответа модели). Если у вас видеокарта серии RTX 30 или RTX 40 с 8 гигабайтами видеопамяти, вы можете использовать Mistral 7B INT4, а также Llama2 13B INT4 с несколько более высокими настройками.

LM Studio не так уж и проста в использовании (хотя не волнуйтесь, она тоже не особо сложна), но взамен она предоставляет доступ к огромному количеству моделей, возможность внесения множества настроек в настройки их работы в диалогах, мы мы можем даже запустить локальный сервер, который мы сможем использовать, таким образом, для предоставления услуги вывода модели для наших собственных разработок.

Технические требования

На этом этапе мы должны различать то, что важно, и то, что рекомендуется, поскольку без первого мы не сможем использовать LM Studio, а второе будет иметь решающее значение для скорости вывода выбранной нами модели. Группу первых составляют эти три, и будем иметь в виду, что речь идет о минимумах:

16 гигабайт оперативной памяти.
Графический процессор с 6 гигабайтами видеопамяти.
Процессор с поддержкой AVX2.

Я читал некоторые отзывы пользователей, которые утверждают, что использовали LM Studio в системе с восемью гигабайтами оперативной памяти, а также на ПК с графическим адаптером, который не достигает 6 гигабайт видеопамяти, но даже если в очень специфических условиях это возможно. возможно. Если вы это сделаете, производительность будет настолько низкой, что ее будет практически невозможно использовать на практике.

Еще одним очень важным элементом является наличие достаточного места для хранения, и чтобы оно было быстрым, с минимумом SSD и больше, чем рекомендовано, PCIe SSD. Имейте в виду, как вы уже поняли и сможете проверить, когда начнете его использовать, вам необходимо загрузить на свой компьютер модели, которые вы хотите использовать, а их размер может быть более чем значительным.

Наиболее приемлемым требованием является наличие у процессора набора инструкций AVX2. Напомним, что он дебютировал в 2013 году с процессором Intel Core четвертого поколения (Haswell) и присутствовал в интегрированных устройствах AMD начиная с Excavator и первого поколения архитектуры Zen.

Если ваша система соответствует этим требованиям и вы хотите начать тестирование прямо сейчас, загрузите LM Studio с сайта эта ссылка и установите его, следуя шагам, которые укажет мастер. Как вы можете видеть на их сайте, есть версии для Windows, macOS и Linux.

Huggin Face, модели и карточки моделей

Одним из первых шагов, которые необходимо предпринять, чтобы начать использовать LM Studio, является загрузка модели. Но для этого, конечно, важно знать их происхождение и понимать некоторые ключевые характеристики. Как вы увидите позже, приложение пытается определить, можно ли использовать LLM на вашем ПК, но все же более чем рекомендуется знать, как понять причины этого, а также какие корректировки вы можете внести.

Таким образом, нам следует начать с разговора о Huggin Face, репозитории моделей ИИ, из которого LM Studio загрузит те, которые вы захотите использовать. От Ваш сайт Вы можете получить доступ к моделям, наборам данных, пространствам для тестирования нескольких типов генеративных моделей, форумам, технической документации и многому другому. Это, без сомнения, важный сайт для всех, кто интересуется искусственным интеллектом, и даже если вы не знаете его по имени, вполне вероятно, что вы время от времени заходили на него, чтобы попробовать какой-нибудь искусственный интеллект.

Чтобы установить модель в LM Studio, вам не требуется прямой доступ к веб-сайту Huggin Face, но если вам нужна дополнительная информация о LLM, которую вы планируете установить, программное обеспечение предлагает вам прямой доступ к ее модель карты в сети. А что такое “модель карты”? Ну, это информационный листок о нем, в котором вы можете найти информацию о его лицензии, файлах, из которых он состоит, место для быстрой проверки его возможностей вывода и т. д. Это всегда рекомендуется посетить перед установкой модели.

При выборе модели (или, в подавляющем большинстве случаев, одного из множества вариантов одной) есть два ключевых параметра, которые сообщают вам, чего можно от нее ожидать: параметры и квантование.

Параметры: обычно вы увидите, что они выражены в виде числа, за которым следует буква B. Например, 7B говорит нам, что это модель с семью миллиардами (семь триллионов долларов США). В контексте LLM, использующего структуру нейронной сети, каждый параметр является эквивалентом нейронной связи. Таким образом, вы уже это вывели, чем больше количество параметров, тем больше плотность и, следовательно, тем больше производительность.
Квантование: метод, используемый для уменьшения размера модели без ущерба для количества ее параметров. Он выражается числом, которому предшествует буква Q, например Q8. Это значение сообщает нам количество битов, используемых для каждого параметра. Опять же, при большем количестве битов ожидается лучшая производительность модели, то есть лучшие отклики.

Итак, логично было бы всегда выбирать модель с наибольшим количеством параметров и самым высоким значением Q, не так ли? Что ж, ответ — да, но только если у вас есть небольшой Дата центр дома, потому что, как и во многих других случаях, производительность и эффективность находятся в обратно пропорциональной зависимости. Поэтому при выборе модели, особенно если вы собираетесь использовать ее регулярно, вам придется найти баланс между хорошей производительностью LLM и в то же время возможностью использования на вашем компьютере, при этом каждый ответ не будет занимать вечность.

Начало работы с LM Studio

Как я уже упоминал выше, LM Studio немного сложнее, чем Chat with RTX, что является отличным вариантом для пользователей, которым нужен опыт «установил и пошел». Однако это не должно заставлять вас думать, что обращение с ним сложное. Скорее наоборот, вы увидите, что через несколько минут вы уже знаете все, что вам нужно, чтобы без проблем начать им пользоваться. Таким образом, при первом запуске отобразится окно, подобное тому, которое вы видите на изображении выше.

Первым делом, конечно же, необходимо установить первую модель (можно, конечно, несколько, но одновременно использовать можно только одну). Для начала я рекомендую начать с Джеммы из Google. Как видите, на данный момент он отображается прямо в начальном интерфейсе LM Studio, и установить его можно одним нажатием кнопки «Скачать»:

Однако, чтобы вы могли лучше ознакомиться с интерфейсом приложения, даже зная, что вы можете установить его таким образом, для этого первого контакта мы собираемся использовать функцию поиска модели приложения, поскольку это инструмент, который дает вам полную доступ ко всем доступным моделям.

Для этого щелкните значок лупы, отображаемый в левой части окна, и, когда отобразится функция поиска, введите «Джемма» в поле, показанном вверху, и нажмите «Перейти» (появится кнопка). когда начнешь писать в поле, не раньше).

Давайте подробнее рассмотрим различные элементы раздела поиска LLM Studio:

Строка поиска: это, как вы уже могли догадаться, раздел, в котором я ранее указал, что вам следует написать то, что вы ищете, будь то название, конкретный термин и т. д.
Информация о системе: здесь отображается информация об оперативной и видеопамяти, обнаруженных программным обеспечением в вашей системе.
Найденные модели: как только вы нажмете кнопку «Перейти», здесь будут отображены все найденные модели в зависимости от используемого поискового запроса.
Информация о выбранной модели: в этих двух разделах вы можете увидеть основную информацию о модели, содержимое текстового файла с информацией о ней и, что очень важно, кнопку просмотра карточки модели данной модели в Huggin Face.
Варианты модели: модель может иметь несколько вариантов, которые в этом случае будут показаны в этом разделе.

В этом конкретном примере, как вы можете видеть, показаны два варианта, и если вы посмотрите на их название, вы увидите, что оба имеют два миллиарда параметров (2B), но один из них имеет уровень квантования 4 бита (Q4 ) и его размер составляет 1,50 гигабайта, тогда как другой имеет уровень квантования 8 бит (Q8) и его размер составляет 2,57 гигабайта.

С другой стороны, возможно, ваше внимание также привлек индикатор «ВОЗМОЖНА ПОЛНАЯ РАЗГРУЗКА ГП». На следующем изображении вы можете увидеть три сообщения, которые могут отображаться в каждом варианте модели:

Мы собираемся использовать это изображение, помимо объяснения того, что говорит нам каждое из этих сообщений, чтобы выполнить упражнение по чтению основных данных модели, что также позволит нам высказать мнение о том, что мы видели ранее.

Давайте начнем с чтения основных данных трех моделей, хорошо? Таким образом, мы имеем:

gemma-2b-it-q8_0.gguf — Возможна полная разгрузка графического процессора — 2,67 гигабайт.
gemma-7b-it-Q6_K.gguf — Возможна частичная разгрузка графического процессора — 7,01 гигабайт.
gemma-7b-it-fp16.gguf — Вероятно, слишком большой для этой машины — 17,08 гигабайт.

Видите ли вы что-то, что привлекает ваше внимание? Да, действительно, в третьем варианте не указан уровень квантования и вместо него читаем FP16. И о чем это нам говорит? Ну, как вы помните, ранее я указывал, что квантование — это метод оптимизации, используемый для значительного уменьшения размера моделей. И именно тогда вы должны знать, что, если вы не прошли этот процесс, каждый параметр определяется числовым значением с десятичными знаками, выраженными в плавающая кома (с плавающей запятой, отсюда и FP в описании модели) и может иметь длину до 24 бит. Со своей стороны, в моделях, оптимизированных с использованием этого метода, параметры преобразуются в целые числа, что играет ключевую роль в уменьшении размера.

Таким образом, если у первых двух моделей в списке свои параметры подверглись процессу квантования, то в третьей этого не произошло, и вместо этого они выражаются числами с десятичными знаками, выраженными в формате с плавающей запятой, размером 16 бит ( FP16) для каждого параметра.

Сделав это важное уточнение, давайте посмотрим, что означают эти три сообщения, которые также говорят нам о важности оперативной памяти системы и, тем более, видеопамяти графического процессора. По ряду причин ИИ лучше работает с графическими процессорами, чем с центральными процессорами, и это распространяется и на память. И, с другой стороны, вы также должны знать, что вся модель должна быть загружена в память, чтобы вы могли начать ее использовать. И, конечно же, в зависимости от доступной памяти и размера модели можно использовать только VRAM или совмещать ее с оперативной памятью системы.

Возможна полная разгрузка графического процессора: кажется возможным загрузить всю модель в видеопамять графического процессора.
Возможна частичная разгрузка графического процессора: вы можете загрузить часть модели в видеопамять графического процессора, а остальную часть — в оперативную память системы.
Вероятно, слишком много для этой машины: общий объем системной памяти (VRAM + RAM) кажется недостаточным для запуска модели.

Очевидно, что в идеале следует выбирать модели, которые могут полностью размещаться во VRAM, но если вам интересно, вы также можете попробовать одну из промежуточных моделей и после установки настроить дистрибутив (я объясню, как это сделать позже). .

Дополнительно: вы, вероятно, недавно слышали о моделях LLM без цензуры, и вам может быть интересно, возможно ли это в LM Studio. Ответ таков: да, вы можете попробовать модели без цензуры, хотя, очевидно, я рекомендую вам использовать их с умом и, конечно же, никогда не причинять вреда. Тем не менее, чтобы поэкспериментировать с этой возможностью, используйте термин «без цензуры» в поисковой системе модели.

Первый разговор

На этом этапе вам, вероятно, не терпится приступить к тестированию только что установленной модели, верно? Не волнуйтесь, ожидание закончилось, и вот мы приступаем к вашему первому «разговору» с ИИ, который полностью работает на вашем ПК с помощью LM Studio. Для этого сначала щелкните в строке меню слева значок, обозначающий чаты с речевым облачком. Вы автоматически попадете в этот раздел.

Как вы, возможно, уже поняли, первый шаг, который вам следует сделать, — это выбрать LLM, который вы хотите использовать в этом разговоре. Для этого нажмите в верхней центральной части окна на «Выбрать модель для загрузки». Таким образом, отобразится меню с моделями, которые вы загрузили на свой компьютер. Нажмите на тот, который вы хотите использовать, и он автоматически начнет загружаться в память. Однако, если сообщение отображается первым (которое с полной уверенностью будет отображаться при дальнейшем использовании LM Studio, когда вы изменяете конфигурации и/или переходите с одной модели на другую)

В этом случае вы можете сохранить текущую конфигурацию или, если хотите, загрузить связанную с моделью, в зависимости от ваших предпочтений. Для первых нескольких использований на всякий случай лучше выбрать «Принять новый системный запрос», даже если вы внесете некоторые изменения позже. Теперь начнется загрузка модели:

В зависимости от размера модели и технических характеристик вашего ПК этот процесс займет больше или меньше времени. С легким и оптимизированным LLM, таким как Gemma 2B, в большинстве случаев это будет делом нескольких секунд. После завершения этого процесса данные модели отобразятся под селектором, и LM Studio будет готова к тому, чтобы вы могли начать общение.

Мы просто собираемся внести изменения в конфигурацию, прежде чем начать разговор. Помните, ранее мы видели, что вы можете загрузить всю модель или ее часть в видеопамять графического процессора? Что ж, теперь мы собираемся точно настроить, какая часть модели будет передана в RVAM, а какая часть останется в оперативной памяти. Для этого найдите в правой части раздел

Как вы уже догадались, первое, что вам следует сделать, это активировать «Разгрузку графического процессора», а затем с помощью ползунка отрегулировать это распределение, принимая во внимание, что левое положение «отправляет» всю модель в оперативную память системы, и что перемещая его вправо, вы выбираете более широкое использование видеопамяти. В идеале, если бы там было указано, что модель может быть загружена полностью, вы бы переместили полосу полностью вправо или нажали кнопку «Макс», показанную под полосой. В противном случае, если было указано, что он может быть загружен частично, рекомендуется попробовать разные настройки (от меньшего к большему), пока не найдете золотую середину.

Однако имейте в виду, что при внесении каких-либо изменений в конфигурацию вам придется перезагрузить модель. Для этого вы увидите, что внизу центральной части окна отображается кнопка с текстом «Обновить модель для применения конфигурации». Нажмите на нее, и этот процесс произойдет автоматически.

Теперь все готово, поэтому используйте текстовую панель, которая появляется внизу окна, чтобы начать разговор с моделью. После того, как приглашение будет написано, нажмите клавишу ввода, и разговор начнется.

Дополнительно, как видно на изображении выше, в конце ответа под ним будет отображена статистическая информация об операции.

Со своей стороны, с помощью кнопки «Регенерировать» LM Studio снова сгенерирует ответ на ваш запрос, а нажатие «Продолжить» сообщит программному обеспечению, что вы хотите, чтобы оно расширило свой ответ.

Как вы увидите, слева в текстовом поле отображается слово «Пользователь». Но что произойдет, если вы нажмете на нее? Что ж, отображаемый там текст станет «Ассистент». Этот режим позволяет вам вводить информацию, которая должна быть учтена моделью во время разговора, но без необходимости предоставления вам немедленного ответа. Давайте посмотрим на быстрый пример.

После смены режима с «Пользователь» на «Ассистент» я сообщаю LLM, как меня зовут.

После нажатия Enter моя фраза отображается в разговоре, но ответа от LM Studio я не получаю.

Далее я снова меняю роль, теперь уже с «Ассистента» на «Пользователя» и пишу подсказку, в которой предполагаю, что модель уже знает мое имя. Например, я попрошу вас написать стихотворение на мое имя. Это результат

Этот пример очень простой, но представьте себе потенциал этой функции, поскольку она позволяет вам определять очень специфический контекст в каждом разговоре (эти действия связаны с разговором, а не с моделью).

Управляйте разговорами и моделями

Хотя до сих пор мы видели, как настроить модель и как вести диалог, LM Studio позволяет вам иметь разнообразие в обоих направлениях.

В случае с моделями, чтобы установить больше, вам просто нужно повторить процесс, который мы видели ранее с теми, которые вы хотите иметь. Однако имейте в виду, что его размер значителен, поэтому я рекомендую умеренность. Чтобы просмотреть список моделей, доступных на вашем компьютере, вам достаточно нажать на значок в виде папки на панели слева, и таким образом вы получите информацию о них.

Чтобы удалить его, вам просто нужно прокрутить вправо и нажать красную кнопку со значком мусорной корзины.

Со своей стороны, чтобы изменить используемую вами модель, нажмите кнопку «Извлечь модель», показанную справа от верхнего раздела, а затем нажмите «Выбрать модель для загрузки», чтобы выбрать ту, которую вы хотите использовать ниже.

Что касается управления чатом, то при нажатии на значок речевого пузыря между полосой слева и центральным разделом отображается раздел, в котором на данный момент отображается только одна запись с названием «Чат без названия». “, или с помощью первой из подсказок, которые вы использовали в разговоре.

Как вы, возможно, уже поняли, чтобы открыть новый разговор, вам просто нужно нажать кнопку «+ Новый чат» или, если хотите, использовать сочетание клавиш Control + N. Это добавит новый разговор с нуля в который при желании вы можете выбрать другую модель. Однако имейте в виду, что хотя каждый разговор будет напоминать вам, какой LLM вы использовали в последнем взаимодействии, по умолчанию во всех из них будет сохранен тот, который вы используете в данный момент. Поэтому, если вы хотите, чтобы каждый разговор велся исключительно с определенной моделью, вам придется убедиться, что вы ее выбрали, прежде чем возобновлять разговор.

Со своей стороны, значок в форме карандаша, отображаемый справа от каждого разговора, позволит вам изменить его имя, что облегчит вам возможность с первого взгляда определить его содержание. Это особенно желательно, если со временем у вас накопится довольно много разговоров.

И, я уверен, вы уже это поняли: если вы хотите удалить чат, вам просто нужно нажать на крестик, показанный справа от его названия.

Хотя вы можете просматривать свои разговоры в LM Studio в любое время, у вас также есть возможность экспортировать их в несколько форматов. Для этого откройте разговор, который вы хотите экспортировать, и найдите в левом верхнем углу кнопку «Экспорт». Появится меню со всеми доступными параметрами экспорта:

В LM Studio доступно больше функций и настроек, но того, что вы узнали из этого руководства, у вас более чем достаточно, чтобы начать использовать его как профессионал. Однако, как только вы почувствуете себя комфортно с инструментом, обязательно экспериментируйте и проводите всевозможные тесты, так как это поможет вам обрести уверенность и освоить это приложение.