today-is-a-good-day
Наверх
>

Распознавание речи на базе ИИ вступает в новую фазу: полное глобальное понимание

Стартап по распознаванию речи пошел по амбициозному пути, чтобы обойти Apple, Google и других технологических гигантов. Может ли ИИ понимать все 7000 языков мира?

06.07.2022
11:24
Комментировать0
speech

Если стремление дать компьютеру возможность понимать каждый голос в мире, не кажется вам чрезвычайно амбициозным проектом, значит вы не пробовали заставить Siri составить текстовое сообщение. Распознавание речи стало огромной проблемой для разработчиков, и за этой задачей пристально следят в самых разных отраслях.

Эта технология имеет значение для человеко-машинных интерфейсов в таких областях, как робототехника, автономные транспортные средства и персональные компьютеры. Им всем нужен машинный интеллект, способный точно интерпретировать естественную речь.

Таким образом, распознавание речи — это своего рода технологическая точка входа, потребность рынка, которая может помочь стимулировать развитие технологий, которые будут иметь широкий резонанс и не факт, что положительные последствия от того, как мы взаимодействуем с машинами.

Неудивительно, что распознавание речи в настоящее время хорошо работает лишь для небольшой части населения мира. Большая часть проблемы — это модель обучения. Большинство обучающих данных необходимо классифицировать вручную, а это означает, что точность достижима только для очень узкого набора говорящих (неудивительно, что этот узкий набор соответствовал именно самым ценным потребителям). Стартап Speechmatics использует иной подход в своем стремлении к более репрезентативному распознаванию речи. Основываясь на наборах данных, использованных в Стэнфордском исследовании «Расовые различия в распознавании речи», Speechmatics зафиксировала общую точность 82,8% для афроамериканских голосов по сравнению с Google (68,6%) и Amazon (68,6%). Такой уровень точности соответствует снижению ошибок распознавания речи на 45 %, что эквивалентно трем словам в среднем предложении. Его движок обрабатывает сотни тысяч отдельных голосов, используя немаркированные, более репрезентативные голосовые данные, не требующие вмешательства человека. Это помогло привлечь внимание не только к англоговорящим. В настоящее время движок понимает 34 языка, что является маленькой каплей в очень большом лингвистическом ведре (во всем мире говорят на более чем 7000 языков). Но платформа добилась впечатляющих успехов в пунктуации, числах, валютах и ​​адресах, которые традиционно блокируют механизмы распознавания речи. Все это вызвало большой интерес у британских компаний. Платформу сейчас используют такие компании, как 3Play Media, Veritone, Deloitte UK и Vonage, а также государственные ведомства по всему миру. В соответствии со своими глобальными целями Speechmatics имеет головной офис в Великобритании, а также офисы в Бостоне (США), Ченнаи (Индия) и Брно (Чешская Республика). Компания будет использовать инвестиции для поддержки глобального расширения в США и Азиатско-Тихоокеанском регионе.

И это только начало.

Подготовлено по материалам ZDNet 

Ваши эмоции после прочтения статьи?

Прокомментируйте первым!

Пожалуйста, введите ваш комментарий!
пожалуйста, введите ваше имя здесь

ЕЩЕ ОТ АВТОРА
172 ПУБЛИКАЦИЙ