За два дня собрал и выпустил в RuStore Android-приложение «Не пиши голосовое!». Наговорил в микрофон, получил расшифровку. Всё прямо на телефоне: ни облака, ни аккаунта, ни интернета. Голосовые часто содержат чувствительные вещи, и отправлять их на чужие серверы — так себе идея.
Стек такой: Expo SDK 54, React Native 0.81 с New Architecture, запись в 16 kHz mono WAV через @siteed/audio-studio, движок sherpa-onnx, модель GigaAM v3 от Сбера (NeMo CTC, INT8). На русском она в 2,5 раза точнее Whisper-large-v3. Модель скачивается один раз, весит около 320 мб, дальше работает офлайн. Длинные записи режу на чанки, всё короче 250 мс отбрасываю как шум.
Интерфейс минимальный: один главный экран со списком заметок и плавающей кнопкой записи. Волнограмма отрисовывается в реальном времени, пульсация и свечение играют в такт громкости, свайп влево удаляет, темы светлая и тёмная.
Лендинг negolosom.ru собрал на скорую руку: одностраничник с кнопками в RuStore и к контактам.
Технологии: Expo SDK 54, React Native 0.81 (New Architecture), TypeScript, Zustand, Reanimated v4, sherpa-onnx, GigaAM v3, AppMetrica
negolosom.ru