Онлайн библиотека PLAM.RU


Марти Херст


МАРТИ ХЕРСТ — адъюнкт-профессор Школы информационною менеджмента и систем Калифорнийского университета в Беркли, сотрудник подразделения компьютерных паук. Ее основные научные интересы — пользовательский интерфейс и использование зрительных образов для поиска информации, эмпирическая вычислительная лингвистика и интеллектуальный анализ данных.


Я верю, что проблема поиска разрешима. Достижения в сферах компьютерной лингвистики и разработки пользовательского интерфейса в конце концов позволят нам находить ответы на любые вопросы, при условии что ответы закодированы в форме текста и хранятся в открытых источниках. Достижения в создании разумных систем позволят строить умозаключения, способные находить ответы даже в том случае, когда их нет в документах, хранящихся в открытых источниках.

Мои предположения подтверждают некоторые недавние достижения. Во-первых, компьютерная лингвистика (также ее называют обработкой естественных языков, или инжинирингом языков) в последние десятилетия достигла больших успехов прежде всего благодаря доступу к огромным массивам текста, что позволяет получать достоверные статистические данные. Например, современные системы компьютерного перевода почти полностью основаны на статистических паттернах, извлеченных из массивов текста; они действуют так же, как системы ручного перевода, и постоянно совершенствуются.

Компании, создающие поисковые машины, постоянно собирают данные о том, как люди ищут информацию. Эти поведенческие данные можно использовать для улучшения средств и инструментов поиска. Например, некоторые алгоритмы исправления грамматических ошибок основаны на данных о том, как люди исправляют ошибки, проверяя пары в последовательных запросах. Если второй запрос почти идентичен первому, считается, что пользователь просто исправил ошибку в слове. Затем создаются паттерны, позволяющие автоматически исправлять ошибки правописания.

Еще одно достижение компьютерной лингвистики — создание вручную огромных лексических онтологий, к которым впоследствии обращаются при формулировании аксиом и правил использования языка. Эти современные онтологии, в отличие от своих предшественниц, достаточно обширны, просты и потому полезны, хотя сегодня эта работа только началась. Также мы наблюдаем активные попытки автоматического создания таких онтологий на основании больших массивов текста. На мой взгляд, самый перспективный подход — объединить автоматизированный подход и создание онтологий вручную. (Я скептически отношусь к шумихе вокруг семантической сети: очень сложно описывать концепции систематическим образом, а тем более заставить всех, кто создает информацию, следовать единой схеме.)

Наконец, залог улучшения поисковых систем — дальнейшее совершенствование пользовательского интерфейса. За те десять лет, что Интернет стал доступен всем и каждому, мы очень многое узнали о том, как люди ищут информацию в Сети. Но, как часто отмечают специалисты в этой области, сам интерфейс почти не изменился. Мы до сих пор набираем слова в «окошке» поиска, а потом выбираем нужные ответы из списка результатов. Я верю, что в этой области многое изменится, скорее всего, благодаря успехам в анализе естественных языков.










Главная | Контакты | Нашёл ошибку | Прислать материал | Добавить в избранное

Все материалы представлены для ознакомления и принадлежат их авторам.