音声研究メモ

音声解析と音声言語処理に関する技術メモと研究文献のコレクション。基礎技術から最新研究まで幅広くカバーします。

研究記事一覧

全 11 件の記事があります

音声解析と機械学習の研究メモ

MFCC、DTW、z-scoreなど音声処理の基礎技術とPythonライブラリの使い方について詳しく解説します。

なりすまし音声のデータセットについて

音声言語処理に関する最新研究文献。J-SPAW 2024で発表された音声合成と認識のなりすまし対策について紹介します。

V2S Attack 論文解説

ASVを突破するためのDNNベース音声変換攻撃「V2S Attack」の仕組みと評価、防御策を整理した解説です。

Kaggle GPU T4×2 利用ガイド

Kaggle Notebooks で GPU T4×2 を有効化する手順とマルチGPUの運用ベストプラクティスをまとめました。

PLDA の基礎と応用

Probabilistic Linear Discriminant Analysis (PLDA) の理論と話者認証への応用、実装時のコツをまとめた解説記事です。

OneDrive エラー対処法

OneDriveで発生する同期エラーやアクセス問題の解決方法。研究データの安全な管理とバックアップのベストプラクティスも紹介します。

SafeEar × J-SPAW 検証レポート

SafeEar を使用して J-SPAW データセットのスプーフィング検出性能を評価した結果と運用上の示唆をまとめました。

Noisereducer コード学習

Pythonライブラリ「noisereduce」のソースコードを読み解き、スペクトルゲート法によるノイズ除去の仕組みを学びます。

ノイズ除去の評価レポート

ノイズ除去の評価レポート。セットアップ、指標、考察、再現手順を紹介。

SafeEar: 実験レポート

SafeEarをASVspoof2019やJ-SpAWで学習、評価した実験の記録。仮説、実験方法、結果、考察を整理。

SEANet: 音声符号化のための畳み込みニューラルネットワーク

SEANet(Simple and Efficient Audio Neural Network)の基本構造、設計原理、音声圧縮への応用を解説。

関連リソース