Деградация экспертизы: почему ИИ рискует подорвать собственное развитие

Для постоянного совершенствования систем искусственного интеллекта в интеллектуальном труде требуются либо надёжные механизмы автономного самообучения, либо человеческие оценщики, способные выявлять ошибки и генерировать качественную обратную связь. Отрасль вкладывает колоссальные средства в первое направление, но почти не уделяет внимания второму. Эксперты считают, что к проблеме человеческой оценки следует подходить с такой же тщательностью и инвестициями, как и к развитию самих моделей.

По данным обзоров, с 2019 года найм выпускников в крупные технологические компании сократился вдвое. Такие задачи, как анализ документов, первичные исследования, очистка данных и проверка кода, теперь выполняются моделями ИИ. Экономисты называют это вытеснением рабочих мест, в то время как компании трактуют это как повышение эффективности. Однако ни одна из сторон не фокусируется на долгосрочных последствиях.

Пределы самосовершенствования ИИ в интеллектуальном труде

Часто в качестве контраргумента приводится обучение с подкреплением (Reinforcement Learning, RL). Например, система AlphaZero достигла сверхчеловеческих результатов в играх Го, шахматах и Сёги без использования человеческих данных, создавая при этом новые стратегии. Известный Ход 37 в матче 2016 года против Ли Седоля, который профессионалы посчитали бы невозможным, был результатом самообучения ИИ, а не человеческой аннотации.

Это стало возможным благодаря стабильности игровой среды. Ход 37 — это новая стратегия в фиксированном состоянии игры Го. Правила полны, однозначны и неизменны. Более того, сигнал вознаграждения идеален, немедленен и не оставляет места для интерпретаций: победа или поражение. Система всегда знает, был ли ход хорошим, поскольку игра заканчивается ясным результатом.

Интеллектуальный труд не обладает ни одним из этих свойств. Правила в любой профессиональной области динамичны и постоянно переписываются людьми, работающими в ней. Принимаются новые законы, изобретаются новые финансовые инструменты. Юридическая стратегия, которая была эффективна в 2022 году, может оказаться неприменимой в юрисдикции, изменившей свою трактовку законов. Правильность медицинского диагноза может быть неизвестна годами. Без стабильной среды и однозначного сигнала вознаграждения невозможно замкнуть цикл обратной связи. Для дальнейшего обучения моделей необходимы люди в цепочке оценки.

Проблема формирования экспертизы

Современные ИИ-системы обучались на экспертизе людей, которые прошли длительный путь формирования этих навыков. Отличие сегодняшней ситуации в том, что именно начальные должности, способствующие накоплению такой экспертизы, были автоматизированы первыми. Это означает, что следующее поколение потенциальных экспертов не накапливает необходимый опыт и суждения, которые делают человеческого оценщика ценным звеном в процессе.

История знает примеры утраты знаний: римский бетон, готические строительные техники, математические традиции, на восстановление которых ушли столетия. Но во всех этих исторических случаях причина была внешней: чума, завоевания, крах институтов, хранивших знания. Сейчас ситуация иная: внешняя сила не требуется. Области знаний могут атрофироваться не из-за катастроф, а из-за тысяч индивидуально рациональных экономических решений, каждое из которых разумно в отдельности. Это новый механизм, и у нас пока мало опыта в его своевременном распознавании.

Когда целые области знаний угасают

В своём логическом пределе это не просто проблема кадрового резерва, это коллапс спроса на саму экспертизу.

Рассмотрим высшую математику. Она атрофируется не потому, что мы перестаём обучать математиков. Она атрофируется потому, что организации перестают нуждаться в математиках для повседневной работы, исчезает экономический стимул стать таковым, сокращается число людей, способных к передовому математическому мышлению, и способность области генерировать новые идеи незаметно рушится. Та же логика применима к программированию. Вопрос не в том, будет ли ИИ писать код, а в том, кто будет развивать глубокую архитектурную интуицию, необходимую для создания по-настоящему новых систем, если ИИ будет писать весь производственный код.

Существует критическая разница между автоматизацией области и её пониманием. Сегодня можно автоматизировать значительную часть строительного проектирования, но абстрактное знание о том, почему определённые подходы работают, живёт в головах людей, которые годами учились на ошибках. Устраняя практику, мы теряем не только специалистов, но и способность осознать, что именно было утрачено.

Высшая математика, теоретическая информатика, глубокие юридические рассуждения, архитектура сложных систем: когда последний человек, глубоко понимающий подотрасль алгебры, уходит на пенсию и никто не приходит ему на смену из-за прекращения финансирования и исчезновения карьерного пути, эти знания вряд ли будут восстановлены в ближайшее время. Они уходят, и никто этого не замечает, потому что модели, обученные на их работе, продолжают хорошо справляться с тестами ещё десятилетие. Это можно сравнить с опустошением: поверхностные возможности остаются (модели всё ещё могут создавать экспертные результаты), в то время как глубинная человеческая способность проверять, расширять или корректировать эту экспертизу незаметно исчезает.

Почему оценочные критерии не являются полной заменой

Текущий подход основан на оценочных критериях. Конституционный ИИ, обучение с подкреплением на основе обратной связи от ИИ (RLAIF) и структурированные критерии, позволяющие моделям оценивать другие модели, – это серьёзные методы, значительно снижающие зависимость от человеческих оценщиков. Их значимость не отрицается.

Однако их ограничение в том, что критерии могут охватить только то, что знал измерить их составитель. Если жёстко оптимизировать модель по этим критериям, она станет очень хорошо им соответствовать, но это не то же самое, что быть по-настоящему правильной.

Критерии масштабируют явную, поддающуюся формулировке часть суждения. Глубинная же часть – инстинкт, ощущение, что что-то не так – не вписывается в критерии. Её нельзя записать, потому что сначала нужно пережить это на опыте, чтобы понять, что именно записывать.

Практические последствия

Это не призыв к замедлению развития. Прогресс в возможностях искусственного интеллекта реален. И возможно, исследователи найдут способы замкнуть цикл оценки без человеческого суждения. Возможно, конвейеры синтетических данных станут достаточно хороши, или модели разработают надёжные механизмы самокоррекции, которые пока невозможно представить.

Но сегодня этого нет. Тем временем, демонтируется человеческая инфраструктура, которая сейчас заполняет этот пробел, не как сознательное решение, а как побочный продукт тысяч рациональных действий. Ответственный подход к этому переходу – не полагать, что проблема решится сама собой. Это означает рассматривать пробел в оценке как открытую исследовательскую проблему с такой же срочностью, с какой ведётся работа по наращиванию возможностей ИИ.

То, что ИИ больше всего нуждается от человека, – это то, что мы менее всего стремимся сохранить. Независимо от того, является ли это постоянным или временным явлением, цена игнорирования одинакова.

Ахмад Аль-Дале, технический директор Airbnb.