Код #Статьи

11 августа, 2025

Генеративно-состязательные нейросети (GAN): объясняем на кошках / Skillbox Media

Теперь компьютеры могут самостоятельно создавать реалистичные изображения, в том числе и картинки с милыми котиками.

Бесплатный курс по Python ➞ Мини-курс для новичков и для опытных кодеров. 4 крутых проекта в портфолио, живое общение со спикером. Кликните и узнайте, чему можно научиться на курсе.

Узнать больше

Ян Гудфеллоу — хороший друг

Генеративно-состязательные сети, известные как GAN, были разработаны американским исследователем Яном Гудфеллоу в 2014 году. Эта концепция возникла у него спонтанно во время обсуждения с друзьями. GAN представляют собой мощный инструмент в области машинного обучения и искусственного интеллекта, позволяющий создавать новые данные, которые схожи с реальными. Эти сети состоят из двух компонентов: генератора, который создает новые образцы данных, и дискриминатора, который оценивает их подлинность. Генеративно-состязательные сети находят применение в различных сферах, включая искусство, модуляцию изображений и даже разработку видеоигр. Их популярность продолжает расти, открывая новые горизонты для исследований и инноваций в области искусственного интеллекта.

Ян обучался в аспирантуре Монреальского университета в Канаде, где занимался разработкой диссертации на тему нейронных сетей. В один из вечеров молодые ученые собрались в баре, чтобы отпраздновать защиту диплома своего коллеги. В ходе обсуждения они затронули интересную тему: как можно обучить компьютер создавать изображения, которые не будут отличаться от реальных фотографий. Особенно их увлекала идея генерации изображений кошек, ведь многие любят рассматривать фотографии этих милых животных. Почему бы не использовать алгоритмы для создания бесконечного количества таких изображений?

Друзья Гудфеллоу считали, что для создания реалистичного изображения в компьютерной программе нужно запрограммировать математические формулы и правила, определяющие расположение элементов на фотографии. Однако Ян был убежден, что этот метод не даст результата. По его мнению, гармонию нельзя измерить и выразить с помощью математики.

Гудфеллоу настаивал на внедрении нейронных сетей, исследованием которых он занимался. Однако его коллеги проявили скептицизм по отношению к этой идее. Ранее нейросети использовались для создания художественных изображений, но результаты оставляли желать лучшего. Кроме того, процесс обучения нейросетей требовал значительных временных затрат и активного участия человека.

Гудфеллоу предложил инновационную модель, в которой используются две нейронные сети, взаимодействующие между собой. Первая из них отвечает за генерацию изображений, а вторая оценивает качество созданного контента. Если сгенерированное изображение выглядит неестественно, вторая сеть отправляет его на доработку. В случае, если изображение соответствует высоким стандартам качества, нейросеть допускает его к показу пользователям. Эта методика позволяет значительно улучшить качество генерируемых изображений, обеспечивая более естественный и привлекательный визуальный контент.

Многие сомневались в успехе задуманного. Однако, вернувшись домой, Гудфеллоу не стал откладывать дело. Всю ночь он работал над созданием программы, основанной на этой модели. К утру его усилия увенчались успехом: нейросети начали успешно генерировать реалистичные изображения. Это были не только кошки, но и практически любые другие объекты. Такой прорыв в технологии открыл новые горизонты для искусства и дизайна, позволяя создавать уникальные визуальные решения с помощью искусственного интеллекта.

Ян Гудфеллоу опубликовал результаты своей научной работы, в которой представил новую модель, названную генеративно-состязательной сетью (GAN). Эта инновационная разработка не только стала значительным вкладом в область искусственного интеллекта, но и открыла новые горизонты для его творческого потенциала. Благодаря GAN, искусственный интеллект получил возможность создавать оригинальные произведения, что стало значимым шагом вперед в развитии технологий.

Генеративно-состязательные сети (GAN) представляют собой одну из самых захватывающих концепций в области машинного обучения за последнее десятилетие. Эти сети позволяют создавать новые данные, обучая две нейронные сети — генератор и дискриминатор — работать в тандеме. Генератор создает фальшивые данные, в то время как дискриминатор оценивает их подлинность. Этот процесс соревнования приводит к улучшению качества создаваемых данных, что делает GAN мощным инструментом в различных приложениях, таких как создание изображений, видео, музыки и текста. Развитие генеративно-состязательных сетей открывает новые горизонты для исследования и применения искусственного интеллекта в самых разных сферах.

Ян Лекун, руководитель исследований в области искусственного интеллекта компании Facebook, подчеркивает важность развития технологий машинного обучения и их применения в различных сферах. Его работа направлена на создание инновационных решений, которые способны улучшить пользовательский опыт и оптимизировать бизнес-процессы. Лекун активно исследует нейронные сети и глубокое обучение, что способствует прогрессу в области ИИ и его интеграции в повседневную жизнь.

В настоящее время генеративные состязательные сети (GAN) активно используются для автоматической генерации изображений. Эти технологии позволяют создавать разнообразные изображения, включая фотографии животных, среди которых котики пользуются особой популярностью. Кроме того, GAN способны генерировать изображения людей и произведения изобразительного искусства, которые находят свое место в крупных галереях, включая Третьяковскую галерею. Развитие GAN открывает новые горизонты в мире искусства и технологий, предоставляя художникам и дизайнерам уникальные инструменты для творчества.

Одним из самых известных и обсуждаемых достижений генеративно-состязательных сетей стало продажа картины, созданной искусственным интеллектом, на аукционе Christie’s. Это произведение, названное «Портрет Эдмонда Белами», изображает вымышленного человека и было продано в 2018 году за 432 500 долларов. Этот случай стал знаковым событием в мире искусства, открыв новые горизонты для использования технологий в творчестве и вызвав широкий общественный интерес к искусственным интеллектам.

Изображение: Wikimedia Commons

Создатели картины, придумав персонажа с фамилией Белами, выразили свою признательность Яну Гудфеллоу, пионеру технологии GAN. Фамилия Гудфеллоу на английском языке переводится как «хороший друг», а на французском – как bel ami. Таким образом, авторы не только подчеркнули важность инноваций в искусственном интеллекте, но и добавили культурный контекст, придавая своему произведению глубину и многослойность.

Судьба Гудфеллоу и его изобретения сложилась весьма успешно. В 2017 году американские ученые включили его в список «Лучших молодых новаторов». За последние несколько лет Ян Гудфеллоу работал в ведущих лабораториях, занимающихся разработкой искусственного интеллекта, таких как Google Brain, проект Илона Маска OpenAI и Apple. Его вклад в развитие технологий искусственного интеллекта значительно повлиял на прогресс в этой области, а его достижения продолжают вдохновлять новое поколение исследователей.

Разбираемся, как это работает

Нейронные сети представляют собой упрощённые компьютерные модели, вдохновлённые структурой и функциями человеческого мозга. Основное их преимущество заключается в способности обучаться на основе примеров. Нейронные сети могут адаптировать свои внутренние параметры, что позволяет им повышать эффективность и точность выполнения задач. Эта адаптивность делает нейронные сети мощным инструментом в различных областях, таких как обработка изображений, анализ данных и искусственный интеллект.

Генеративно-состязательная модель включает в себя две нейронные сети, которые функционируют независимо и практически без участия человека. Эти сети взаимодействуют друг с другом, создавая условия для обучения и оптимизации. Каждый компонент выполняет свою уникальную роль: одна сеть генерирует данные, а другая оценивает их качество. Такой подход позволяет достигать высоких результатов в различных задачах, включая создание изображений, текстов и даже музыки, что делает генеративно-состязательные модели важным инструментом в области искусственного интеллекта и машинного обучения.

Предположим, что перед ними стоит задача освоить создание изображений кошек. Для этого необходимо изучить различные техники и инструменты, которые помогут в процессе рисования или цифрового создания изображения. Важно понимать основы анатомии кошек, чтобы точно передать их особенности и характерные черты. Также стоит обратить внимание на выбор цвета и текстуры, чтобы изображения выглядели реалистично и привлекательно. Практика и эксперименты с разными стилями помогут развить навыки и создать уникальные работы.

Первая нейросеть, известная как генератор и обозначаемая буквой G, функционирует как сеть-художник. Она обучается создавать изображения, например, котов, и передает свои работы второй нейросети — дискриминатору, который обозначается буквой D. Эту нейросеть можно рассматривать как сеть-эксперта, поскольку она оценивает качество и реалистичность произведений генератора. Взаимодействие этих двух нейросетей играет ключевую роль в процессе генеративного обучения, позволяя создавать все более качественные изображения.

Источник: платформа freeCodeCamp. Инфографика: Майя Мальгина / Skillbox Media

Для того чтобы достичь уровня эксперта в распознавании изображений кошек, дискриминатор прошёл специальное предварительное обучение. В процессе обучения он проанализировал тысячи реальных фотографий кошек, что позволило ему эффективно идентифицировать различные породы и особенности этих животных.

Изучив представленные изображения, сеть-эксперт сформировала общее представление о внешнем виде кошек, включая такие характеристики, как наличие лап, хвоста, усов и глаз. Однако дискриминатор, не получив дополнительных данных от программистов, обладает ограниченными знаниями и не может считать их полными. Это подчеркивает важность качественного и разнообразного набора данных для обучения нейронных сетей, чтобы обеспечить более точное распознавание и понимание объектов.

В процессе работы активируется сеть-художник, которая не имеет представления о внешнем виде котов. Её основная задача заключается в постоянном создании художественных изображений, которые она затем предъявляет сети-эксперту. Получая обратную связь от эксперта, сеть-художник улучшает свои работы, развивая навыки и расширяя своё понимание эстетики изображений. Таким образом, взаимодействие между сетью-художником и сетью-экспертом способствует не только совершенствованию художественного вкуса, но и созданию уникальных и качественных изображений котов.

Изначально изображения, создаваемые генератором, могут не иметь ничего общего с кошками и выглядеть как неразборчивые желтые пятна. В результате дискриминатор отвергает такие работы, но одновременно предоставляет генератору косвенные подсказки о том, как улучшить изображения, чтобы они стали ближе к его представлениям о кошках. Этот процесс обучения позволяет генератору постепенно создавать более реалистичные изображения животных, что в конечном итоге приводит к созданию качественных и узнаваемых изображений кошек.

Несмотря на множество отказов, художник-сеть не теряет оптимизма. С упорством истинного творца она снова и снова пересматривает свои работы, стремясь пройти через строгую экспертизу критиков. Каждый новый рисунок становится шагом к преодолению преград, а её творческий процесс наполняется настойчивостью и решимостью.

Сети конкурируют друг с другом, что и объясняет название данной модели. Победа одной сети неизбежно ведет к поражению другой. Генератор обучается с целью максимизации вероятности ошибки дискриминатора, в то время как дискриминатор стремится минимизировать вероятность своей ошибки. В научной среде это явление известно как минимаксная игра. Такие взаимодействия между генератором и дискриминатором создают основу для эффективной работы генеративно-состязательных сетей (GAN), что позволяет значительно улучшать качество сгенерированных данных.

После тысяч попыток генератор успешно создает реалистичное изображение кота, и дискриминатор не может отличить его от настоящего. Это становится явной победой для генератора, в то время как для дискриминатора — поражением. Он принял сгенерированное изображение за реальную фотографию, что свидетельствует о его ошибке. Таким образом, процесс генерации изображений продолжает развиваться, демонстрируя успехи в области искусственного интеллекта и компьютерного зрения.

Модель генерирует изображения, которые прошли проверку через дискриминатор, что обеспечивает определенный уровень качества создаваемых картинок. Однако, поскольку сеть-эксперт не имеет полного представления о морфологии кошек, она иногда может допускать ошибки, включая изображения с аномалиями, такими как кошки с глазами на хвосте. Это может вызвать недоумение у зрителей, особенно у тех, кто предпочитает более традиционные образы.

Генератор изображений использует случайный шум в качестве входных данных для создания разнообразных картин. Элемент случайности позволяет нейросети производить различные варианты изображений котов, изменяя цвет шерсти, форму тела, расположение лап и глаз. Без этого аспекта возникла бы тенденция к повторению одной и той же картинки, которая ранее успешно прошла фильтрацию. Таким образом, генератор способен предлагать уникальные и оригинальные изображения, что делает процесс творчества более увлекательным и непредсказуемым.

Это краткое описание, но оно предоставляет общее понимание принципов функционирования генеративных состязательных сетей (GAN). GAN представляют собой мощный инструмент в области машинного обучения и искусственного интеллекта, который используется для генерации новых данных, схожих с существующими. Основной механизм работы GAN включает в себя две нейронные сети — генератор и дискриминатор, которые соревнуются друг с другом. Генератор создает новые образцы данных, в то время как дискриминатор оценивает их качество, определяя, являются ли они реальными или сгенерированными. Этот процесс обучения позволяет обеим сетям улучшать свои навыки, в результате чего генератор начинает создавать высококачественные данные, которые трудно отличить от оригинальных. GAN находят применение в различных областях, включая создание изображений, видео, музыки и других форм медиа.

Посмотрим результаты — с котиками и не только

Крупнейшие IT-компании и независимые разработчики создали разнообразные версии генеративно-состязательных нейросетей. Эти технологии активно используются для создания уникального контента, улучшения качества изображений и генерации текста. Разработка таких нейросетей стала важным шагом в области искусственного интеллекта, открывающим новые возможности для бизнеса и творчества.

В 2018 году команда специалистов компании Google разработала алгоритм BigGAN. Этот алгоритм способен генерировать изображения с высокой степенью реалистичности, что произвело впечатление даже на одного из ведущих экспертов в области искусственного интеллекта Яна Гудфеллоу. BigGAN демонстрирует новые возможности генеративных моделей, открывая перспективы для применения в различных сферах, таких как искусство, дизайн и реклама.

В том же году NVIDIA представила свою собственную модель StyleGAN. Исходный код и вся необходимая информация для специалистов были размещены на GitHub. Создатели обучили нейросеть генерировать изображения несуществующих человеческих лиц, автомобилей, интерьеров спален и, разумеется, кошек. Результаты работы StyleGAN были опубликованы в интернете, демонстрируя впечатляющие возможности генерации реалистичных изображений.

Инженер Филипп Ван, вдохновленный моделью нейросетей StyleGAN, разработал сервис под названием This Cat Does Not Exist («Этого кота не существует»). Посетив этот сайт, вы сможете увидеть изображение кота, который не существует в реальности, созданное с применением генеративно-состязательной сети. Для получения нового изображения достаточно обновить страницу в браузере, и вы увидите совершенно уникального кота, сгенерированного алгоритмом. Этот проект демонстрирует возможности современных технологий в области искусственного интеллекта и генерации изображений.

Этого кота не существует и никогда не существовало. Его «вообразила» нейронная сеть. Изображение: сервис ThisCatDoesNotExist.com

Ван разработал аналогичные сайты, посвященные изображениям лошадей и человеческих лиц. Эти платформы позволяют пользователям легко находить и делиться высококачественными фотографиями, обеспечивая удобный интерфейс и разнообразие контента.

Сервис по генерации изображений несуществующих людей неожиданно стал популярным среди злоумышленников. Используя технологии искусственного интеллекта, они создают в социальных сетях фейковые страницы, наполненные реалистичными фотографиями вымышленных пользователей. Эти поддельные аккаунты используются для онлайн-мошенничества, распространения дезинформации и спама. Важно быть внимательными и распознавать такие аккаунты, чтобы защитить себя от возможных угроз и манипуляций в интернете.

Руководителям сайтов необходимо разработать алгоритмы для распознавания фальшивых пользователей. Администраторы Facebook уже удалили свыше трех миллиардов подозрительных аккаунтов, что подчеркивает серьезность проблемы. Эффективные методы борьбы с такими аккаунтами помогают улучшить качество взаимодействия на платформах и защищают пользователей от обмана.

Генеративные состязательные сети (GAN) находят широкое применение в современном изобразительном искусстве. «Портрет Эдмонда Белами» является лишь одним из множества примеров использования этой технологии. Все больше художников интегрируют компьютерные технологии в свои творческие процессы, что открывает новые горизонты для создания уникальных произведений искусства. GAN позволяют создавать оригинальные изображения, экспериментировать с формами и стилями, а также расширять границы традиционного искусства.

София Креспо разработала уникальную серию картин под названием «Нейронный зоопарк», используя компьютерные технологии. С помощью генеративно-состязательных сетей (GAN) ей удалось создать изображения, которые объединяют характеристики различных животных и растений. Результаты работы выглядят впечатляюще, и вы можете оценить их, посетив сайт Neural Zoo.

Проект Софии под названием This Jellyfish Does Not Exist («Этой медузы не существует») представляет собой уникальный веб-сайт, который генерирует фейковые изображения медуз с использованием нейронных сетей. Каждый раз при обновлении страницы пользователи могут увидеть новое, искусственно созданное изображение медузы. Этот проект демонстрирует возможности современных технологий в области искусственного интеллекта и их применение в художественной сфере, открывая новые горизонты для творчества и визуального искусства.

В завершение, стоит упомянуть интересный сервис, связанный с нейронными сетями и кошками. Американский исследователь Кристофер Гёссе создал алгоритм edges2cats, который переводится как «каракули в котов». Этот инструмент позволяет преобразовывать нарисованные от руки изображения в фотореалистичные фотографии кошек. Алгоритм демонстрирует удивительные возможности современных технологий и их применение в области искусственного интеллекта, открывая новые горизонты для художников и любителей котов.

Чтобы воспользоваться программой, перейдите на сайт и создайте изображение, которое хотя бы отдалённо напоминает усато-полосатое животное. Нейронная сеть выполнит остальную работу за вас. Также сервис поддерживает работу с изображениями сумок, обуви и фасадов зданий, что расширяет его функционал и возможности для пользователей.

Подведём итоги

Изобретение Яна Гудфеллоу оказало значительное влияние на развитие технологий, изменив наш мир навсегда. Его новая модель нейронных сетей предоставила искусственному интеллекту возможность создавать уникальные произведения. Сегодня, когда мы рассматриваем изображения людей, котов, лошадей или медуз, возникает вопрос: можем ли мы быть уверены, что это не искусно сгенерированные компьютером изображения? Эта революция в области ИИ открывает новые горизонты как в искусстве, так и в других сферах, заставляя нас переосмыслить понятие оригинальности и авторства.

Если вы интересуетесь котиками или просто хотите углубить свои знания о нейронных сетях и приобрести востребованную профессию в этой быстро развивающейся сфере, программы Skillbox могут стать отличным решением для вас. Получите необходимые навыки и знания, чтобы успешно конкурировать на рынке труда в области искусственного интеллекта и машинного обучения.