OpenAI слышит ваш шепот | Хакадей

Если вы хотите попробовать высококачественное распознавание голоса, ничего не покупая, удачи. Конечно, вы можете позаимствовать распознавание речи на своем телефоне или заставить некоторых виртуальных помощников на Raspberry Pi обрабатывать обработку за вас, но это не подходит для основной работы, которую вы не хотите привязывать к какому-то закрытому исходному коду. решение. OpenAI представила Whisper, который, как они утверждают, представляет собой нейронную сеть с открытым исходным кодом, которая «приближается к надежности и точности человеческого уровня при распознавании английской речи». Похоже, он работает, по крайней мере, и на некоторых других языках.

Если вы попробуете демонстрации, вы увидите, что быстрая речь или приятный акцент не влияют на результаты. В сообщении упоминается, что он был обучен на 680 000 часов контролируемых данных. Если бы вы так много разговаривали с ИИ, вам бы потребовалось 77 лет без сна!

Внутри речь разбивается на 30-секундные фрагменты, которые подаются на спектрограмму. Кодировщики обрабатывают спектрограмму, а декодеры обрабатывают результаты, используя некоторые предсказания и другие эвристики. Около трети данных было получено из неанглоязычных источников, а затем переведено. Вы можете прочитать статью о том, как обобщенное обучение уступает некоторым специально обученным моделям в стандартных тестах, но они считают, что Whisper лучше справляется со случайной речью за пределами конкретных тестов.

Размер модели в «маленьком» варианте по-прежнему составляет 39 мегабайт, а в «большом» — более полутора гигов. Так что это, вероятно, не будет работать на вашем Arduino в ближайшее время. Однако, если вы хотите программировать, все это есть на GitHub.

Есть и другие решения, но не такие надежные. Если вы хотите пойти по маршруту, основанному на помощнике, вот немного вдохновения.

Leave a Comment