Статья : Использование генеративного ИИ для автоматизации дата инжиниринга

04.06.2024

Использование генеративного ИИ для автоматизации дата инжиниринга

Часть 1: Краткий обзор больших языковых моделей

За сравнительно небольшое время генеративный искусственный интеллект (Gen AI) превратился в одну из ключевых технических парадигм и уже породил отдельное направление в программной инженерии. Это происходит аналогично тому, как сначала это сделали СУБД, потом интернет с поиском и мобильными платформами. Gen AI несет в себе не меньший потенциал для решения и автоматизации ключевых бизнес-проблем.

Верхнеуровнево LLM классифицируются по следующим трем категориям.

Основные характеристики LLM:

В качестве входных данных, в LLM их называют промтами, можно использовать текст или медиа. Например — "Кто выиграл последний чемпионат мира по футболу?"
Модель генерирует ответы в текстовом и другом медиа формате, например — "Франция".
Часть текста, переданного в prompt, преобразуется в токены.

Краткая история больших языковых моделей

Декабрь 2015: OpenAI основана как некоммерческая организация с подтверженным финансированием в размере 1 миллиарда долларов.

Конец 2016: Исследователь из OpenAI добивается успешных результатов, обучая нейронные сети на корпусе отзывов Amazon. Исследователи поражены, обнаружив, что за кулисами нейронная сеть проводит анализ тональности отзывов, не будучи для этого явно запрограммированной. Они хотят провести обучение на данных интернет-масштаба, но технологии для этого еще не существует.

2017: Google Brain публикует статью под названием "Attention Is All You Need", в которой описывается новая архитектура нейронных сетей, называемая Transformer. Эта архитектура позволяет делать параллельную токенизацию и использование мягких весов. Благодаря этой алгоритмической инновации теперь становится возможным более быстрое обучение нейронных сетей на огромных объемах данных.

2018: OpenAI выпускает модель Generative Pre-Trained Transformer (GPT), которая обучена на более чем 7000 книгах. Google выпускает BERT. Гонка началась.

2019: OpenAI выпускает GPT-2, обученный на более чем 8 миллионах веб-страниц (отфильтрованных на основе ссылок с Reddit) и имеющий размер в 1.5 миллиарда параметров. Исследователи вновь поражены, обнаружив, что модель обладает способностью к переводу, не будучи для этого специально обученной.

2020-е: OpenAI выпускает GPT-3 в июне 2020 года, которая обучена на полном корпусе интернет-краулинга, книг и Википедии. За этим следует выпуск GPT-4 в марте 2023 года.

Краткое сравнение между GPT-4 и GPT-3

206