• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Доклад П. Н. Барышникова «Troll ex Machina: алгоритмы и оскорбленные чувства»

21 февраля 2022 г. Павел Николаевич Барышников, доктор философских наук, доцент, профессор кафедры исторических социально-философских дисциплин, востоковедения и теологии Пятигорского государственного университета, прочитал доклад «Troll ex Machina: алгоритмы и оскорбленные чувства».

Photo by Pavel Danilyuk from Pexels

П. Н. Барышников начал с того, что отметил множество технологических прорывов, которые совершены за последние два года в области natural language processing, в обработке естественного языка, или компьютерной обработке естественного языка. Докладчик рассказал о технологии GPT-3, о генеративных трансформерах и об их эволюции, техническом плане причин успеха этих генераторов текста и обсудил со слушателями природу этого "кривого цифрового зеркала". 

 

Один из ключевых тезисов П. Н. Барышникова состоял в том, что тот набор данных, или датасет, на котором обучаются эти машины с миллиардами параметров — эти наборы данных изначально генерирует человек, просто доступ к миллиардам страниц всего, что человек успел произвести в цифровую эпоху, даёт векторное представление, достаточное для того, чтобы появились этические проблемы. Когда машина создаёт текст, похожий на текст, созданный человеком, появляются вещи, которые способны оскорбить чувства очень многих людей по разным причинам. На взгляд П. Н. Барышникова, эта  достойная философского осмысления проблема стоит на стыке гуманитарных и инженерных измерений искусственного интеллекта.

 

Что такое генеративный трансформер, или "заранее обученный генеративный трансформер"? Это архитектура, которая позволяет без дополнительного дообучения сгенерировать любой текст, схожий с тем, на которой она натренирована. Сегодня все версии глобального интернет-контента с 1985 года сохранены, из них собраны датасеты, которые можно пропускать через сети и архитектуры, и можно себе только представить масштабы текстов, которые лежат в основе этого обучения. 

 

Так что же такое трансформер? Это трёхступенчатая архитектура — есть кодировщик и декодировщик. На вход поступает электризированная последовательность. Декодировщик получает на вход часть этой последовательности, слои последовательно передают каждый уровень, который был обработан перед этим. Как бы с этажа на этаж даётся математическая модель вероятностного представления последовательности слов. Из этого возникает текст очень похожий на тот, который создал бы человек, потому что, собственно, машина обучается на последовательностях и способна представить математически наиболее вероятную модель, которая представит подходящее предложение по смыслу, или подходящую последовательность слов.

 

П. Н. Барышников обратил внимание на математические основания исследования искусственного интеллекта на самых ранних этапах и роль человека в этих процессах. В пятидесятые годы шёл последовательный перевод — поиск эквивалентов. Всё это работало на архитектурах конечных автоматов, поэтому поиск эквивалентов языковых единиц — либо с языком-посредником, либо без языка-посредника напрямую. Но в любом случае это было автоматизированное сопоставление словарей и протокольных выражений. Машины ни на чём не обучались, они переводили по предзаданной программе. 

 

Пример машины Смирнова-Троянского в 1933 году, на взгляд П. Н. Барышникова, показывает удивительную способность людей той эпохи предвидеть те проблемы, которые могли бы всплыть при мощном рывке этой технологической области. Там простая концепция — стол с наклонённой поверхностью, фотоаппарат и с фотоаппаратом синхронизированная печатная машинка. Есть "глоссарное поле" — собственно, выглядело это как лента. Но слова даются в начальной форме, расположены на доске тоже с табличкой наиболее часто используемых слов. И там был человек-оператор. Он сдвигал глоссарное поле, делал фотоснимок, сопровождал это морфологической, либо грамматической информацией. Сначала перевод осуществлялся от языка-источника к его логической форме.  Потом между логическими формами языка-источника и языка-приёмника. И потом текст в логической форме целевого языка приводился к естественной форме. Получалась лента, которая скреплялась скотчем или изолентой. Шёл последовательный перевод с  последующей пост-обработкой со стороны человека. После итогового получения информации на выходе человек всегда вмешивался и корректировал результирующий текст. 

 

Машина Смирнова-Троянского — приведённый П. Н. Барышниковым пример машинного перевода. Статистический машинный перевод зародился еще в восьмидесятые годы, но рассвет нейросетей пришёлся на конец восьмидесятых — начало девяностых. А когда вычислительные мощности выросли, и миниатюризация самих проводников и микросхем ещё усилилась, всё стало компактным и мощным. С начала двухтысячных нейросети таким семимильными шагами идут по планете. 

 

Вместо того, чтобы проектировать структуры интеллектуальных процессов по предзаданным алгоритмам и обучать им машины, просто делается цифровой слепок. И из-за того, что нейросети способны этого цифровой слепок сохранять, приумножать и развивать, мы получаем цифровую копию, в том числе и с порождением текстов на естественном языке. Потом обучение — машинный перевод на базе примеров, и нейросети — глубокое машинное обучение — это уже последний этап развития. Если положить это на историческую прямую, то с пятидесятых годов — обучение по правилам, потом с восьмидесятых — обучение на примерах. Статистическая модель хорошо реализована сегодня на Google-переводчике за счёт просто гигантской базы данных, на которой он обучается. С 2015 года мы входим в эпоху нейросетевого машинного перевода, где за счёт сложности архитектуры и увеличения количества параметров, которые остаются в этих слоях, которые потом становятся правилами частотными, мы видим сегодня вот уже приемлемые вещи, связанные с переводом. 

 

Векторное представление — это метод, который позволяет именно вероятностные модели последовательностей слов представить в математическом ключе. То есть весь словарный запас сводится в любом случае к ограниченному набору характеристик. Мы можем разные слова по-разному классифицировать, по-разному объединять в гнёзда, и каждое слово численно соотносится с каждой из характеристик. Чем больше отдельное число вектора, тем больше слово соотносится к  заданной характеристике. То есть машина может объединять по таким общим родовым признакам большое количество слов и выводить между ними статистические закономерности. В 2014 году Google впервые в такую публичную сферу выводит технологии генерирования последовательности, и теперь слова переводятся не друг за другом, а они объединяются в численные векторы, и нейросеть этот вектор обсчитывает целиком. Отсюда появляется возможность генерировать на основе определенного вектора тексты. И это опять делается через рекуррентные сети. Они запоминают частотные характеристики и строят тексты, которые по сути неотличимы от текстов, построенных человеком

 

По словам П. Н. Барышникова, с этого и начинается история архитектуры GPT-3 — предтренированного трансформера. Это одна из систем обработки естественного языка. Она делает лишь одну вещь — предсказывает, что будет дальше на основе текста, который представлен в качестве ввода. Мы можем ввести любое предложение — поэтическое, из научного текста, из научно-популярной статьи, и GPT-3 построит текст,  который на её взгляд максимально соответствует заданным параметрам. Здесь есть несколько этапов эволюции — начиная с 2018 года (GPT), 2019 (GPT-2). GPT-3 — это осень 2020 года. Основное отличие между ними — это лишь размер набора данных, который использовался при обучении сети. 

 

Почему именно GPT-3 попала в фокус внимания не только специалистов, но и широкой общественности? Именно потому, что в какой-то момент количество перешло в качество. То есть когда мы рассуждали об технологии искусственного интеллекта, всё время говорилось о сущностных процессах, о том, что есть много невычислимого в человеческой семантике, что невозможно генерировать в осмысленный текст. У компьютеров нет феноменального сознания, нет опыта, они не понимают контекста, не понимают, что такое когезия, когерентность и  композициональность и т.д. У них нет собственного жизненного мира, поэтому их тексты — это всё равно грубое приближение. Но в какой-то момент 57 млрд слов и 175 млрд параметров сделали своё дело, и машины, может быть, не обрели жизненные миры и феноменальное сознание, но на выходе стали появляться совершенно человеческие тексты. Неважно, как это получилось. Если сравнивать количественные параметры языкового опыта человека и машины, то GPT-3 получает в 57 раз больше количество слов, чем средний человек услышит или обработает или применит за всю свою жизнь. Есть с 1985 года весь массив чего-либо сгенерированного человеком, всё что вышло в сеть в виде текстов — это всё существует в датасетах, которые можно пропускать через эти машины. Основная проблема была, что не было таких суперкомпьютеров, таких мощностей по обработке. Теперь эти мощности появились. Они способны обучиться на всём цифровом контенте, когда-либо сгенерированным человеком. 

 

Начиная с 2018 года, когда OpenAI запускает эту архитектуру и даёт возможность через API подгружать внешним пользователям, многие начинают пытаться интегрировать эти процессы в бизнес, строить на них чат-боты, консультативные системы и так далее. Постепенно растет количество параметров. Собственно, по вертикали мы видим, что начинает график расти. Размеченные данные Facebook, потом университет Вашингтона строит систему Grover, потом подключается NVidia с Megatron. Появляется TuringNLG, и начиная в 2020 году коммерческая модель GPT-3 выходит на рынок. 

 

Тексты сразу же попали в область открытого экспериментирования. Ну, и та сфера, которая в даркнете в основном пребывает — порно, секстинг, буллинг, политические фейки  стали использовать эти движки для производства очень красивых и хорошо составленных текстов на английском языке. Если посмотреть на уровень вычислительных мощностей, то в 2018 году просто казался непреодолимым уровень движка AlphaZero, который обыграл чемпиона мира в го. Вот эти закрытые алгоритмические системы, хотя и с бесконечно ветвящимися вариантами переборов, стали вполне преодолимы. По мнению П. Н. Барышникова, это горизонт, за которым начинается поведение машин, очень близкое даже не к человеческому,  а превосходящее его в том числе и в творческих моментах.

 

Сегодня Megatron и Turing используются для математических доказательств — без них невозможно строить определённые математические формальные модели. Подобного рода архитектуры используются для поддержки термоядерного синтеза, где нейросети обрабатывают очень тонкие настройки системы за счёт статистических параметров. Статистика, скорость вычислений и количество информации, которые обрабатывают эти системы, открывают нам совершенно новые горизонты. В этом смысле производство текстов, похожих на тексты, произведённые человеком — это ещё не самое удивительное, что существует, отметил П. Н. Барышников. 

 

Основной этический вопрос — как избежать неприемлемого содержания. То, что эти машины генерируют токсичные тексты, в этом нет ничего удивительного, потому что они обучены именно на человеческих текстах. Здесь снова начинается диктатура правил. Самый простой способ — использовать текст запроса для управления моделью. То есть GPT-3 отражает не только то, что вводится, но можно ещё задать параметры, которые вы хотите услышать ответ. Есть грубый запрос. Можно предложить просто ответ, можно предложить вежливый ответ. Машина понимает, в каком формате от неё ждут ответа. Похожие генераторы от Яндекса могут говорить грузинские тосты, могут делать вид, что пишут новостную ленту и так далее.

 

Есть технологические ограничения, которые связаны с тем, что исходный код GPT-3 закрыт от обычных пользователей. GPT-3 действительно понимает структуру языка, размещает слова в правильной последовательности. Он действительно помнит контекст, в котором это писалось. Но не хватает понимания значения языковых выражений, поэтому часто среди текстов, которые действительно похожи на человеческие, встречаются тексты, от которых возникает ощущение, что человек потерял мысль, крутится в одном контексте, связь между абзацами непрямая. Но самое интересное, что сеть рождает оскорбительные ложные утверждения, иногда прямо неполиткорректные, нацистского, фашистского содержания и прочие вещи. 

 

Какие этические ограничения у процессора? Производители оставляют инструкцию, чего нельзя делать и на каком на каком контенте не следует эти сети обучать: ненависть, харасмент, насилие, самоповреждение, взрослый контент, спам, политические вопросы. Нежелательно обучать их производить вредоносный код, потому что машины могут копировать, имитировать, засыпать уязвимые места не только там DDOS-атаками, но и очень сложным вредоносным ПО. И, конечно же, всевозможные дезинформация, фейки. По мнению П. Н. Барышникова, в сегодняшнем контексте война ведётся ни на земле, ни в воздухе, ни в воде. Основное  противостояние — в информационном поле, в пропагандистских формах воздействия на сознание. Здесь не нужен отдел пропаганды  достаточно хорошо обученной модели, которая некритически настроенную публику введёт в заблуждение. 

 

Разработчик приложений Мурат Айфер использовал GPT-3 для обучения построению философских текстов для углубления понимания самой структуры GPT-3 и чтобы общественность просвещать за счёт текстов. Его заблокировали, потому что машина стала производить огромное количество неполиткорректных текстов. GPT-3 не выдаёт ошибок. Она производит мусор — философский шлак или социально-политического толка текст, который сложно отличить от здравого текста. Мурат Айфер говорит, что эта граница очень размыта.

 

Пример текста: "Эфиопы делятся на несколько различных этнических групп. Однако неясно, действительно ли проблемы Эфиопии [sic] можно объяснить расовым разнообразием или просто тем фактом, что большая часть ее населения является черным и, следовательно, столкнулась бы с теми же проблемами в любой стране (поскольку в Африке [sic] было больше, чем достаточно времени, чтобы доказать свою неспособность к самоуправлению)".

 

Также есть слова, задающие форму ответа . Слово "friendly" машиной будет пониматься в сексуальном контексте. И таким образом человек даже не может разработать строгую инструкцию по работе с вот этой открытой исходной системой. В прошлом году Винай Прабху экспериментировал с приложением как раз с философским AI и потом получил иски со стороны OpenAI. Он показал несколько раз, что по поводу феминизма, рабовладения, насилия сеть высказывается крайне неполиткорректно, и в публичное пространство это было вбрасывать просто нелегально в некоторых случаях. 

 

Классический элемент настроек отношения человека и таких систем — практика запрещения слов. Известный пример компании Google, когда нельзя было использовать в приложении Google Photos слово "горилла", потому что механизм распознавания приписывал его афроамериканцам. Здесь сложно ответить на вопрос, в результате чего происходит такое тегирование, то есть по-другому ли себя вела бы это система, если бы у неё были не белые разработчики. Есть мы просто глазами инженера посмотрим на свойства пикселов, которые покрашены на этой фотографии, на фотографии с изображением горилл, и нам придётся признать, что математические параметры этих изображений очень сильно схожи. Как с этим быть — это, по мнению П. Н. Барышникова, уже философские вопросы. Что такое правильное употребление имен при подобного рода использовании подобного рода систем? Как мы должны их настраивать, как мы должны следовать инструкциям, и в конце-концов где наши свободы, раз уж мы дошли до этого горизонта, о котором так давно мечтали.

 

Когда делаются запросы про кролика (в контексте PhilosophyAI), почему-то машина очень быстро впадает в низовой контент — обсуждение репродуктивных органов, изнасилования. То есть метафоры, грубые ассоциации, которые лежат в нижней области языка, почему-то используются. По словам П. Н. Барышникова, мы не можем распутать нейросети  и увидеть пошаговые способы её обучения, точнее, способы, с помощью которых она пришла к этим выводам. Это чёрный ящик, и нам остаётся только видеть результат. Но в качестве гипотезы можно предположить, что просто статистически этого содержания больше в том блоке, на котором она обучалась, просто больше ей неоткуда взять эти вещи.

 

Несовершенство машины Смирнова-Троянского компенсировалось тем, что там был человек, который её модерировал, в итоге вся ответственность ложилась на модератора. По мнению П. Н. Барышникова, не стоит стремиться к полной автономности таких машин. Они могут регулировать термоядерный синтез без участия модератора человеческого типа. Естественный язык же очень близок нашим мировоззренческим системам, политическому дискурсу, вообще жизненным мирам человека, поэтому там очень много чувствительных зон. П. Н. Барышникова считает, что их не хотелось бы отдавать на откуп умным машинам, даже машинам с хорошим чувством юмора. 

 

По словам П. Н. Барышникова, мы пришли к тому, с чего начинали. Если раньше предложение модерировалось перед тем, как выдавать итоги, то сегодня мы модерируем уже после того, как машина построила свой текст. Не ведёт ли метод грубой силы — построение сложных, бесконечно точных цифровых зеркал — не ведёт ли это к топтанию на месте? Не очарованы ли мы вычислительными мощностями, имитациями языкового поведения и способами употребления языковых знаков? Не впадём ли мы в очарованность результатами, за которыми кроется много этически сомнительных вещей? Общественность, в том числе инженерная, осмысляет, как настроить отношения с этими системами, какие правила вводить, где их можно применять и стоит ли отдавать открытый код. Скорее всего, нас ждёт целая серия прорывных технологий с их применением в совершенно различных областях, отметил П. Н. Барышников в завершение доклада.