Google запускает Speech-to-Retrieval: голосовой поиск без распознавания речи
Google отметил крупный шаг в развитии поисковых технологий, представив систему, которая обрабатывает голосовые запросы без превращения их в текст.
Новая технология (Speech-to‑Retrieval, S2R) использует модели глубокого обучения, обученные на больших датасетах аудио‑текстовых пар, позволяя искать информацию напрямую по фонетическому материалу.
В отличие от модели Cascade ASR, которая преобразует речь в текст и далее применяет обычные алгоритмы ранжирования, S2R опускает промежуточный перевод, тем самым уменьшая вероятность потери смысловых нюансов и ошибок в индексации.
Алгоритм реализован двумя компонентами: аудиокодером, преобразующим звук в семантический вектор, и кодером документов, выдающим аналогичный вектор из текстовой информации.
Оба кодера обучены распознавать сходство между аудио‑текстовыми запросами в едином пространстве, что обеспечивает более точное соответствие запросов и релевантных результатов.