ZMTGROUP.ORG

Последние бизнес новости

Язык — основа нашей работы»: Панду Наяк из Google Search

В беседе сотрудник Google Панду Наяк, входящий в основную команду руководителей компании Search, объясняет, почему языки лежат в основе того, что компания делает для улучшения поискового опыта пользователей.

Поскольку Google теперь начинает понимать даже индийские языки, написанные латиницей, и выяснять, какой язык следует вывести на поверхность для того или иного запроса, это станет кульминацией работы, начатой очень давно. Панду Наяк знает обо всех затраченных усилиях. Сотрудник Google и вице-президент по поиску работает в компании уже 16 лет.

«Язык лежит в основе нашей работы. И это видно по эволюции поиска с первых дней его существования», — объясняет он во время видеозвонка. «Так, одной из первых вещей, которая была ориентирована на язык (мы сделали), была коррекция орфографии». Хотя сейчас это может показаться очень простым, Наяк, который входит в основную команду руководителей Google Search, поясняет, что «умный способ написания слов на самом деле требует понимания языка».

«Впоследствии следующая большая инновация в языке была связана с синонимами… идеей о том, что слова означают разные вещи в разных контекстах, — продолжает он. Затем наступил этап понимания языка, когда двигатель начал понимать разницу между «подошвой» обуви и «подошвой» рыбы». Несмотря на прогресс, Наяк признает, что они «не до конца разобрались», поскольку до сих пор можно увидеть некоторые результаты по запросу «подошва ботинка», когда на самом деле кто-то ищет рыбу.

«Вы получаете все эти действительно интересные явления с языком. Потому что язык — это такая сложная штука… он очень тонкий, нюансированный и так далее», — рассказывает он, добавляя, что последние инновации были связаны с машинным обучением и глубоким обучением, «своего рода квантовыми скачками в понимании предложений, естественного языка и разговоров».

«Если вы не сделаете хорошую работу, люди не будут пользоваться вашим продуктом, поскольку язык имеет для нас огромное значение», — добавляет он. «Правильная работа над языком — залог успеха у пользователей».

Затем возникла проблема переноса полученных знаний на другие языки, что Google называет локализацией. Но статистический подход немного облегчил эту задачу. «В основе используемых нами методов лежат статистические методы, которые изучают крупномасштабную статистику языка и его использования… Это не то, что мы изучаем грамматику английского языка, а затем грамматику хинди и так далее», — говорит он, добавляя, что поскольку основополагающие методы являются статистическими по своей природе, они могут быть легко обобщены на множество различных языков. «При условии, что у вас есть правильные обучающие данные в виде документов на этом языке и так далее. А имея правильные данные для обучения, вы можете научиться правильной чувствительности».

Но это только одна часть. Затем возникла проблема, связанная с необходимостью решать специфические проблемы различных языков. «Во многих восточноазиатских языках, таких как китайский, японский и корейский, существует проблема сегментации. Каждый иероглиф действительно похож на слово… и вам нужно найти способ разделить его на сегменты. Для этого существуют специальные алгоритмы», — объясняет Наяк, как они решали проблему символов кандзи.

Немецкий стиль объединения существительных в составные существительные представляет собой другую проблему. «Чтобы по-настоящему понять язык, нужно научиться декомпозировать его. Для этого нужны специальные техники».

Затем в Индии возникла проблема транслитерации, особенно когда люди пишут на хинди по-английски. «Чтобы правильно обрабатывать транслитерацию, нужна специальная обработка, чтобы понять, что на самом деле было сказано».

Хотя набирать текст и искать на региональных индийских языках все еще довольно сложно, Наяк признает, что «распознавание речи как способ работы невероятно ценен». Именно поэтому, по его словам, Google вкладывает «большие средства в улучшение распознавания речи для индийских языков» и «получение правильных данных для обучения, правильных алгоритмов».

Работа, которая уже была проделана, дала некоторые результаты. «Они работают достаточно хорошо, но я думаю, что мы хотим сделать их намного лучше, чтобы стало действительно легко делать это без ошибок».

«Другая стратегия заключается в том, что мы можем взять ваш английский запрос и в зависимости от него либо перевести его, либо транслитерировать на ваш региональный язык и показать результаты по нему. Теперь достаточно одного касания, чтобы перейти к этим результатам и посмотреть, подходят они вам или нет», — объясняет он последнюю функцию, которую Google внедряет в Индии.

«Вам не нужно вводить эти вещи, но мы пытаемся угадать, используя перевод, который является еще одним из таких методов, прошедших долгий путь», — объясняет он, как этот новый метод помогает решить проблему ввода на индийских языках. Наяк говорит, что после запуска некоторых из этих функций компания Google заметила резкое увеличение поискового трафика на хинди.
Кроме того, поскольку контекстуализация является важнейшей частью голосового ввода, Наяк говорит, что она обязательно появится на этих языках, как это уже сделано в английском. «Я не думаю, что это долгосрочная проблема. Я думаю, это просто вопрос времени».

По поводу улучшения поиска на других индийских языках Наяк говорит, что это «комбинация различных факторов, понимание языка является частью этого». Он говорит, что даже несмотря на значительный прогресс Google, факт остается фактом: для обучения алгоритмов доступно меньше контента, чем на английском языке. «Работа с экосистемой для создания такого контента — это то, в чем мы очень заинтересованы. Мы также хотим начать работу над переводом, например», — говорит он, уточняя, что в конце концов «то, что делает поиск великим, — это контент».

«Конечно, многое еще предстоит сделать. И я думаю, что у нас есть существенные обязательства перед Индией и индийским рынком, и я очень надеюсь, что в будущем все будет еще лучше. И я убежден, что реальное решение этих проблем действительно поможет пользователям».

Наяк, окончивший IIT-Bombay и получивший степень доктора компьютерных наук в Стэнфордском университете, возглавляет команды Google по ранжированию и особенно интересуется пониманием языка применительно к поиску. В качестве адъюнкт-профессора на факультете компьютерных наук Стэнфордского университета он преподавал информационный поиск вместе с Крисом Мэннингом, а также вел курс «Методы обоснования в искусственном интеллекте». Он также работал техническим директором компании Stratify, Inc после работы в Исследовательском центре NASA Ames, где он работал над проектом Remote Agent, первой системой искусственного интеллекта, которой было передано основное управление космическим кораблем.