ポセイドンは、ベンチマークとなる低リソース言語の音声データと信頼できるグラウンドトゥルースを必要としています。 LLMのトランスクリプトの正確性を確保するため、言語学者と協力してベンガル語の成果を監査しました。 2億8千万人が話す言語において、私たちが見つけたギャップはより深い問題、すなわちデータ↓を示しています