Що таке Gemini і як цей сервіс працює
Content

Ми вважаємо, що швидка реакція на відгуки й своєчасні оновлення допоможуть нам зробити сервіс Gemini якомога кориснішим і зручнішим для користувачів в усьому світі. Завдяки доступу Google-Extended до контенту сайтів моделі штучного інтелекту із часом можуть стати точнішими й ефективнішими. Ми також працюємо над новими способами контролю відповідей Gemini, зокрема над можливістю налаштовувати фільтри, які допоможуть отримувати ширший діапазон результатів. Крім того, є елементи керування загальнодоступними посиланнями, які ви створюєте для ланцюжків у Gemini, і налаштування, що дають змогу ввімкнути чи вимкнути доступ до розширень (таких як Workspace, Карти або YouTube). Інформацію з Gemini, як і з інших сервісів Google, можна завантажувати й експортувати за допомогою інструмента Takeout від Google. Ми створили різноманітні прості елементи керування Gemini, щоб ви могли переглядати, оновлювати, експортувати й видаляти свої дані в Gemini, а також керувати ними.
Зворотний зв’язок і оцінки людей
Як ви могли здогадатися, виконання цього вручну зайняло б дуже багато часу, тому автори дослідження застосовували Gemini для підготовки коду, який використовував вхідні дані та вносив необхідні оновлення. Записів, деякі з яких потрібно було оновити відповідно до нових даних. Надзвичайні мультимодальні можливості Gemini допомагають вам зрозуміти складну текстову та візуальну інформацію.
Як працює Gemini
Ми продовжуємо використовувати великі мовні моделі в багатьох сервісах Google, серед яких і додаток Gemini, який дає змогу людям напряму взаємодіяти з генеративним штучним інтелектом. Завдяки цьому краще працює автозавершення речень у Gmail, розширилися можливості Google Перекладача, а Пошук Google показує точніші результати за запитами користувачів. Упередження також ґрунтуються на навчальних даних, доступних новій мовній моделі.

“Вона була створена з нуля, щоб бути мультимодальною, що означає, що вона може узагальнювати та бездоганно розуміти, оперувати та поєднувати різні типи інформації, включаючи текст, код, аудіо, зображення та відео”. Наразі Gemini доступний через інтеграцію з Google Bard і Google Pixel 8 і поступово буде включено в інші служби Google. З публічним випуском ChatGPT-3 від OpenAI компанія, яка керує найпопулярнішою пошуковою системою в світі, також створила подібний інструмент – Bard. Google розробляє власні інструменти штучного інтелекту вже протягом багатьох років.
Чим Gemini відрізняється від інших моделей штучного інтелекту, наприклад GPT-4?
Ми ретельно протестували Gemini і продовжуємо це робити, проте усвідомлюємо, що користувачі й далі знаходитимуть унікальні складні способи випробувати сервіс. Ми розробили низку правил, які допомагають Gemini навчатися й уникати генерування проблемних відповідей. Іноді сервіс Gemini може генерувати відповіді, які створюють враження, що в нього є думки або емоції, такі як любов чи смуток, оскільки він навчався на матеріалах, у яких відображено емоції і почуття людей.
Microsoft також почала показувати рекламу в адресному рядку браузера Edge, закликаючи користувачів спробувати Bing щоразу, коли вони відвідують вебсайт Bard. 31 березня Пічаї заявив, що компанія має намір «оновити» Bard, взявши за основу PaLM, новішу та потужнішу велику мовну модель від Google, ніж попередня LaMDA. Невдовзі після першого запуску Bard Google реорганізувала команду, що стоїть за Google Assistant, віртуальним помічником компанії, щоб зосередитися на Bard. Потім на кожне запитання надається три відповіді, а користувачам пропонується надіслати відгук щодо корисності кожної відповіді. 21 березня 2023 року Google відкрив ранній доступ для Bard в обмеженій кількості, дозволяючи користувачам у США та Великій Британії приєднуватися до списку очікування.
Також Gemini зможе допомогти ознайомитися з меню в ресторані, написаним іншою мовою, і порекомендувати страву, яка вам найімовірніше сподобається. Наприклад, сервіс може пояснити складне поняття простими словами, поділитися корисними відомостями з певної теми або пояснити, що показано на зображенні. Сьогодні Gemini – універсальний інструмент на основі ШІ, який може допомагати різноманітними способами. Цей фреймворк продемонстрував, як моделі можуть передбачати наступне речення в розмові на основі одного чи кількох попередніх речень і завдяки цьому спілкуватися природніше.
Як отримати доступ до Gemini?
- Щоб генерувати їх, сервіс також покладається на зовнішні джерела, такі як Пошук Google і/або одне з його кількох розширень, а також нещодавно додані файли (тільки Gemini Advanced).
- Ми також додаємо водяні знаки в текстові й графічні результати Gemini за допомогою SynthID, нашого найкращого в галузі цифрового набору інструментів для нанесення водяних знаків на контент, створений ШІ.
- Численні засоби масової інформації та фінансові аналітики описали анонс Bard «поспішним» і створеним для того, щоб випередити заплановану на 7 лютого подію конкурента Microsoft, яка оголосила про партнерство з OpenAI для інтеграції ChatGPT у її пошукову систему Bing.
- Ми продовжуємо використовувати великі мовні моделі в багатьох сервісах Google, серед яких і додаток Gemini, який дає змогу людям напряму взаємодіяти з генеративним штучним інтелектом.
Ми проводимо навчання в кілька етапів, щоб на кожному з них змінювати структуру такого поєднання, і збільшуємо значення ваги даних, що стосуються конкретної галузі, ближче до кінця навчання. Щоб ознайомитися з останніми оновленнями додатка Gemini, відвідайте сторінку Сповіщення про оновлення або читайте публікації блогу Google Keyword. Цей документ періодично оновлюватиметься, оскільки ми продовжуємо швидко вдосконалювати можливості додатка Gemini, а також усувати обмеження, притаманні великим мовним моделям. Прозорість – важлива частина нашої роботи, і ми прагнемо бути відкритими щодо процесу розробки й обмежень Gemini. Наприклад, ми використовуємо найсучасніші методи навчання з підкріпленням, щоб зробити наші моделі більш інтуїтивними й креативними, а також домогтися від них ще якісніших і точніших відповідей.
Нова модель Gemini від Google, здається, є однією з найбільших і найдосконаліших моделей штучного інтелекту на сьогоднішній день, хоча випуск моделі Ultra точно визначить це. Перший – WhatsApp, але наступного року такі рішення з’являться і в інших застосунках, пов’язаних зі спілкуванням. Це дозволить, серед іншого, створювати швидкі відповіді через програму Gboard у месенджерах. Завдяки цьому він краще розуміє нюанси інформації та може відповісти на складні запитання.
- Спеціалісти оцінюють якість відповідей, а також визначають, що і як можна покращити.
- Ми розробили низку правил, які допомагають Gemini навчатися й уникати генерування проблемних відповідей.
- Кінцеві значення ваги й поєднання даних визначаються за допомогою абляцій на менших моделях.
- Google розробляє власні інструменти штучного інтелекту вже протягом багатьох років.
На цьому етапі модель учиться генерувати ще кращі відповіді на основі оцінок або відгуків від спеціальної моделі винагородження. За допомогою попереднього навчання ми тренуємо модель розпізнавати шаблони певною мовою і використовувати їх, щоб спрогнозувати наступні ймовірні слова в послідовності. Якість даних – важливий фактор для створення високопродуктивних моделей, і ми вважаємо, що питання оптимального розподілу наборів даних для попереднього навчання не закрите і є багато цікавих аспектів, які варто досліджувати.
Відомі обмеження інтерфейсів на основі великих мовних моделей, таких як Gemini
Щоб генерувати їх, сервіс також покладається на зовнішні джерела, такі як Пошук Google і/або одне з його кількох розширень, а також нещодавно додані файли (тільки Gemini Advanced). Якщо видавець заборонив доступ до контенту на своєму сайті, Gemini не використовуватиме його ані для навчання моделей, ані для обґрунтування відповідей. У своїх відповідях Gemini не має схвалювати чи підтримувати певну точку зору стосовно таких тем, і ми покладаємося на відгуки користувачів про такі типи відповідей, щоб навчити Gemini краще реагувати на подібні запити. Ми продовжуємо досліджувати, Фіксі велосипеди як використовувати ці дані так, щоб у відповідях велика мовна модель враховувала широкий спектр поглядів і водночас не допускала неточностей, що виникають через надмірні узагальнення й упередження.
На відміну від підходу Microsoft до Bing, Bard був запущений як окрема вебпрограма з текстовим полем і застереженням про те, що чатбот «може відображати неточну або образливу інформацію, яка не відповідає поглядам Google». У січні 2023 року генеральний директор DeepMind Деміс Гассабіс оприлюднив плани щодо конкурента ChatGPT, і співробітники Google отримали вказівки прискорити його розвиток, інтенсивно тестуючи «Apprentice Bard» та інші чатботи. Ми також додаємо водяні знаки в текстові й графічні результати Gemini за допомогою SynthID, нашого найкращого в галузі цифрового набору інструментів для нанесення водяних знаків на контент, створений ШІ. Тому не варто на основі відповідей, які дає Gemini, оцінювати продуктивність окремих інструментів, що використовувалися для їх генерації. Тому велика мовна модель не є чудовим джерелом точної інформації, але може бути корисною, коли потрібні креативні або неочікувані результати.
Скажімо, якщо вам потрібно підсумувати довгий документ із дослідженнями, його можна додати в Gemini і отримати корисну узагальнену інформацію. Керуючись нашими принципами щодо ШІ, у березні 2023 року ми запустили Gemini (тоді цей сервіс називався Bard) як експеримент. Наш підхід до розробки додатка Gemini змінюватиметься разом із розвитком технології, що лежить у його основі, а також з урахуванням результатів наших досліджень, досвіду й відгуків користувачів. У цій статті ми розповімо, як ми розробляємо додаток Gemini (далі – Gemini), зокрема його мобільну та вебверсію, а також як він працює і які має можливості й обмеження. Ми прагнемо, щоб додаток Gemini був найкориснішим персональним помічником на основі штучного інтелекту, завдяки якому люди отримають можливість користуватися найновішими моделями ШІ від Google.
Bard контролює керівник продукту Джек Кравчик, який описав продукт як «спільний сервіс штучного інтелекту», а не пошукову систему, тоді як Сундар Пічаї розповів, що Bard буде інтегровано в пошук Google. 6 лютого 2023 року Google анонсували Bard — розмовного чатбота з породжувальним штучним інтелектом на базі LaMDA. Стурбовані потенційною загрозою ChatGPT для пошуку Google, керівники Google видали «червоний код», перепризначивши кілька команд для допомоги в зусиллях компанії зі штучного інтелекту. ChatGPT привернув увагу всього світу після свого випуску, ставши вірусною інтернет-сенсацією. Він був розроблений як пряма відповідь на зростання популярності ChatGPT і був обмежено випущений у березні 2023 року для невеликої групи тестувальників, перш ніж поширитися на публіку. Спеціалісти оцінюють якість відповідей, а також визначають, що і як можна покращити.
Ми розробили низку інструкцій для сервісу Gemini щодо того, як він може представляти себе (тобто свою особистість), і продовжуємо вдосконалювати модель, щоб забезпечити об’єктивність відповідей. Потрібні додаткові тести, особливо для Gemini Ultra, яка має нові можливості, що ще не повністю вивчені. Хоча Gemini є серйозним стрибком у розвитку можливостей штучного інтелекту, він має недоліки, які притаманні й іншим великим мовним моделям.
Продуктивність
Щоб оцінки моделей не були суперечливі, ми знаходимо й вилучаємо всі дані оцінювання, які могли міститися в нашому навчальному корпусі, перш ніж використовувати їх для навчання. Ми застосовуємо фільтри якості до всіх наборів даних, одночасно використовуючи евристичні правила й класифікатори на основі моделей. Ви можете отримати доступ до своїх запитів до Gemini, відповідей на них і відгуків, а також переглянути їх за допомогою елементів керування історією дій у додатках Gemini. Ми очікуємо, що користувачі перевірятимуть межі можливостей сервісу Gemini і намагатимуться зламати системи захисту, зокрема змусити його розкрити протоколи навчання або іншу інформацію, а також спробувати обійти механізми безпеки.
- Наприклад, сервіс може пояснити складне поняття простими словами, поділитися корисними відомостями з певної теми або пояснити, що показано на зображенні.
- Google планує з часом інтегрувати його у свою пошукову систему, рекламу, поштовий сервіс Gmail, браузер Chrome та інші служби.
- Тобто Gemini може не дати відповідь на коректний запит, помилково інтерпретувавши його як неприйнятний, або згенерувати неприйнятну відповідь попри наявні правила.
- Багато глядачів також вказали на помилку під час демонстрації, у якій Bard надає неточну інформацію про космічний телескоп Джеймса Вебба у відповідь на запит.
- Наразі Gemini доступний через інтеграцію з Google Bard і Google Pixel 8 і поступово буде включено в інші служби Google.
Хибнопозитивні й хибнонегативні результати
Станом на березень 2025 року, згідно з повідомленням видання The Information, чатбот Gemini мав 35 млн активних користувачів щодня та 350 млн користувачів на місяць. Дослідник Google Джейкоб Девлін звільнився з компанії після того, як заявив, що Bard таємно використав дані з ChatGPT. 8 лютого 2023 року, після прямої трансляції в Парижі, на якій демонстрували Bard, акції Google впали на вісім відсотків, що еквівалентно втраті ринкової вартості на 100 мільярдів доларів, а відео прямого ефіру на YouTube стало приватним. Численні засоби масової інформації та фінансові аналітики описали анонс Bard «поспішним» і створеним для того, щоб випередити заплановану на 7 лютого подію конкурента Microsoft, яка оголосила про партнерство з OpenAI для інтеграції ChatGPT у її пошукову систему Bing. Раніше того ж року компанія представила LaMDA, прототип великої мовної моделі, але не оприлюднила його для громадськості.
Відповіді на запити користувачів
Ми постійно співпрацюємо з фахівцями з різних галузей і різноманітними спільнотами, щоб покращити якість інформації у сферах за межами спеціалізації Google. Прогалини, упередження й надмірні узагальнення в навчальних даних можуть проявлятися в результатах роботи моделі, коли та намагається спрогнозувати ймовірні відповіді на запит. Навчальні дані, зокрема відомості із загальнодоступних джерел, містять розмаїття точок зору й думок. Оскільки великі мовні моделі працюють, прогнозуючи одне чи кілька наступних слів, вони ще не повністю здатні самостійно розрізняти точну й неточну інформацію. Ми продовжуємо досліджувати, як і що можна покращити в кожному із цих напрямків.


Leave a Reply