Meta AI запустила систему автоматического распознавания речи Omnilingual ASR, обеспечивающую распознавание речи более чем на 1600 языках, а также выпустила модели с открытым исходным кодом и корпус данных для 350 недостаточно обслуживаемых языков.
Исследовательский отдел технологической компании Meta, специализирующийся на ИИ и дополненной реальности, Meta AI, объявил о выпуске системы Meta Omnilingual Automatic Speech Recognition (ASR).
Этот набор моделей обеспечивает автоматическое распознавание речи более чем на 1600 языках, достигая высокого качества работы на беспрецедентном масштабе. Кроме того, Meta AI открывает исходный код Omnilingual wav2vec 2.0 — модели самосупервизированного, многомногоязычного представления речи с 7 миллиардами параметров, предназначенной для поддержки различных задач обработки речи.
Вместе с этими инструментами организация также выпускает корпус Omnilingual ASR — тщательно собранную коллекцию транскрибированной речи на 350 недостаточно обслуживаемых языках, разработанную в партнерстве с глобальными коллегами.
Автоматическое распознавание речи за последние годы достигло почти идеальной точности для многих широко распространенных языков. Расширение охвата на менее ресурсные языки остается сложной задачей из-за больших требований к данным и вычислительным ресурсам существующих архитектур ИИ. Система Omnilingual ASR решает эту проблему, масштабируя энкодер wav2vec 2.0 до 7 миллиардов параметров, создавая богатые мультиязычные представления из необработанной, непереведенной речи. Два варианта декодеров преобразуют эти представления в символы: один использует классификацию по временной связи (CTC), другой — трансформерный подход, аналогичный моделям больших языковых моделей.
Этот подход, вдохновленный LLM, достигает передовых результатов по более чем 1600 языкам, с уровнем ошибок в символах менее 10% для 78% из них, и вводит более гибкий метод добавления новых языков.
В отличие от традиционных систем, требующих экспертной настройки, Omnilingual ASR может включать ранее неподдерживаемый язык, используя всего несколько парных аудио-текстовых образцов, что позволяет выполнять транскрипцию без обширных данных, специализированных знаний или высокопроизводительных вычислительных ресурсов. Хотя нулевой уровень точности еще не достигает полностью обученных систем, этот метод предоставляет масштабируемый способ интеграции недостаточно обслуживаемых языков в цифровую экосистему.
Meta AI для развития распознавания речи с помощью Omnilingual ASR и корпуса данных
Исследовательский отдел выпустил комплексный набор моделей и датасет, предназначенные для развития технологий распознавания речи для любого языка. Основываясь на предыдущих исследованиях FAIR, Omnilingual ASR включает два варианта декодеров — от легких моделей объемом 300М для устройств с низкой мощностью до моделей объемом 7B, обеспечивающих высокую точность в различных приложениях. Также доступна универсальная модель wav2vec 2.0 для обработки речи в различных размерах, что позволяет выполнять широкий спектр задач, связанных с речью, помимо ASR. Все модели распространяются под лицензией Apache 2.0, а датасет — под лицензией CC-BY, что позволяет исследователям, разработчикам и специалистам по языкам адаптировать и расширять решения для обработки речи с помощью открытой платформы FAIR fairseq2 в экосистеме PyTorch.
Omnilingual ASR обучена на одном из крупнейших и наиболее лингвистически разнообразных корпусов данных для распознавания речи, объединяющем публичные наборы данных и записи, собранные сообществами. Для поддержки языков с ограниченным цифровым присутствием Meta AI сотрудничает с местными организациями, привлекая и компенсируя носителей языка из удаленных или недостаточно документированных регионов, создавая корпус Omnilingual ASR — крупнейший на сегодняшний день набор данных для спонтанной речи с очень низкими ресурсами. Дополнительные партнерства через программу Language Technology Partner Program объединили лингвистов, исследователей и языковые сообщества по всему миру, включая сотрудничество с Mozilla Foundation’s Common Voice и Lanfrica/NaijaVoices. Эти усилия обеспечили глубокое лингвистическое понимание и культурный контекст, гарантируя, что технология отвечает местным потребностям и одновременно расширяет возможности разнообразных языковых сообществ по всему миру.
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
Meta AI представляет Omnilingual ASR, продвигая автоматическое распознавание речи более чем на 1600 языках
Кратко
Meta AI запустила систему автоматического распознавания речи Omnilingual ASR, обеспечивающую распознавание речи более чем на 1600 языках, а также выпустила модели с открытым исходным кодом и корпус данных для 350 недостаточно обслуживаемых языков.
Исследовательский отдел технологической компании Meta, специализирующийся на ИИ и дополненной реальности, Meta AI, объявил о выпуске системы Meta Omnilingual Automatic Speech Recognition (ASR).
Этот набор моделей обеспечивает автоматическое распознавание речи более чем на 1600 языках, достигая высокого качества работы на беспрецедентном масштабе. Кроме того, Meta AI открывает исходный код Omnilingual wav2vec 2.0 — модели самосупервизированного, многомногоязычного представления речи с 7 миллиардами параметров, предназначенной для поддержки различных задач обработки речи.
Вместе с этими инструментами организация также выпускает корпус Omnilingual ASR — тщательно собранную коллекцию транскрибированной речи на 350 недостаточно обслуживаемых языках, разработанную в партнерстве с глобальными коллегами.
Автоматическое распознавание речи за последние годы достигло почти идеальной точности для многих широко распространенных языков. Расширение охвата на менее ресурсные языки остается сложной задачей из-за больших требований к данным и вычислительным ресурсам существующих архитектур ИИ. Система Omnilingual ASR решает эту проблему, масштабируя энкодер wav2vec 2.0 до 7 миллиардов параметров, создавая богатые мультиязычные представления из необработанной, непереведенной речи. Два варианта декодеров преобразуют эти представления в символы: один использует классификацию по временной связи (CTC), другой — трансформерный подход, аналогичный моделям больших языковых моделей.
Этот подход, вдохновленный LLM, достигает передовых результатов по более чем 1600 языкам, с уровнем ошибок в символах менее 10% для 78% из них, и вводит более гибкий метод добавления новых языков.
В отличие от традиционных систем, требующих экспертной настройки, Omnilingual ASR может включать ранее неподдерживаемый язык, используя всего несколько парных аудио-текстовых образцов, что позволяет выполнять транскрипцию без обширных данных, специализированных знаний или высокопроизводительных вычислительных ресурсов. Хотя нулевой уровень точности еще не достигает полностью обученных систем, этот метод предоставляет масштабируемый способ интеграции недостаточно обслуживаемых языков в цифровую экосистему.
Meta AI для развития распознавания речи с помощью Omnilingual ASR и корпуса данных
Исследовательский отдел выпустил комплексный набор моделей и датасет, предназначенные для развития технологий распознавания речи для любого языка. Основываясь на предыдущих исследованиях FAIR, Omnilingual ASR включает два варианта декодеров — от легких моделей объемом 300М для устройств с низкой мощностью до моделей объемом 7B, обеспечивающих высокую точность в различных приложениях. Также доступна универсальная модель wav2vec 2.0 для обработки речи в различных размерах, что позволяет выполнять широкий спектр задач, связанных с речью, помимо ASR. Все модели распространяются под лицензией Apache 2.0, а датасет — под лицензией CC-BY, что позволяет исследователям, разработчикам и специалистам по языкам адаптировать и расширять решения для обработки речи с помощью открытой платформы FAIR fairseq2 в экосистеме PyTorch.
Omnilingual ASR обучена на одном из крупнейших и наиболее лингвистически разнообразных корпусов данных для распознавания речи, объединяющем публичные наборы данных и записи, собранные сообществами. Для поддержки языков с ограниченным цифровым присутствием Meta AI сотрудничает с местными организациями, привлекая и компенсируя носителей языка из удаленных или недостаточно документированных регионов, создавая корпус Omnilingual ASR — крупнейший на сегодняшний день набор данных для спонтанной речи с очень низкими ресурсами. Дополнительные партнерства через программу Language Technology Partner Program объединили лингвистов, исследователей и языковые сообщества по всему миру, включая сотрудничество с Mozilla Foundation’s Common Voice и Lanfrica/NaijaVoices. Эти усилия обеспечили глубокое лингвистическое понимание и культурный контекст, гарантируя, что технология отвечает местным потребностям и одновременно расширяет возможности разнообразных языковых сообществ по всему миру.