ПиоNER: обучаемая система извлечения фактов из текстов
Как мы использовали методы машинного обучения и компьютерной лингвистики для разработки робота
Иван Бондаренко CodeFest
Скрыть видео
Основа городского информационного сервиса — полная и актуальная информация о разнообразных фирмах, госучреждениях и прочих организациях. Сейчас в 2ГИС вся эта информация собирается нашими специалистами вручную. Но что, если на помощь живым людям придёт не знающий усталости робот?

Поскольку практически все городские организации имеют свой веб-сайт или хотя бы страничку в соцсети, такому роботу не придётся ходить по улицам или ездить на троллейбусе. Ему достаточно пройти по интернету в поисках корпоративных сайтов и прочитать там разные факты о фирмах: как называются, где находятся, когда работают... Однако, веб-дизайнеры — люди творческие и один созданный ими сайт не похож на другой. В подобных условиях для извлечения фактов из корпоративных сайтов уже не обойтись одними лишь регулярками и XPath-выражениями.

В своём докладе я расскажу, как мы использовали методы машинного обучения и компьютерной лингвистики для разработки такого робота, который умел бы понимать текстовый контент любых корпоративных сайтов и извлекать оттуда нужную нам информацию.
Иван Бондаренко

Специалист по анализу данных

Иван закончил ДонНТУ в 2006 году, затем 7 лет преподавал в университете. Некоторое время работал C/C++ разработчиком на аутсорсе, сейчас пишет на Pyth...

Биография докладчика
CodeFest

1-2 апреля 2017

Конференция разработчиков, посвященная вопросам разработки, управления проектами и тестирования

Сайт конференции

Будь в курсе

  • Участвуй в конференциях, учись новому
  • Узнавай от 2ГИС самое интересное из мира технологий
  • Читай новости, смотри выступления опытных экспертов