Suchergebnisse - Electrical Engineering and Systems Science - Audio and Speech Processing

1

Wird geladen …

Procurement Of Dsp Enabled Evaluation Kit For Speech And Audio Signal Processing At The Department Of Electronics Electrical Communication Engineering Department, Iit

ISSN: 2219-0112

Veröffentlicht: Camden Disco Digital Media, Inc 21.06.2025

Veröffentlicht in MENA Report (21.06.2025)

Volltext

Newsletter

Zu den Favoriten

Gespeichert in:
2

Wird geladen …

Versatile Time-Frequency Representations Realized by Convex Penalty on Magnitude Spectrogram von Keidai Arai, Koki Yamada, Kohei Yatabe

ISSN: 1070-9908, 1558-2361

Veröffentlicht: Institute of Electrical and Electronics Engineers (IEEE) 01.01.2023

Veröffentlicht in IEEE Signal Processing Letters (01.01.2023)

Volltext

Journal Article

Zu den Favoriten

Gespeichert in:
3

Wird geladen …

Expression-Preserving Face Frontalization Improves Visually Assisted Speech Processing von Zhiqi Kang, Mostafa Sadeghi, Radu Horaud, Xavier Alameda-Pineda

ISSN: 0920-5691, 1573-1405

Veröffentlicht: Springer Science and Business Media LLC 12.01.2023

Veröffentlicht in International Journal of Computer Vision (12.01.2023)

Volltext

Journal Article

Zu den Favoriten

Gespeichert in:
4

Wird geladen …

Generalized Domain Adaptation Framework for Parametric Back-End in Speaker Recognition von Qiongqiong Wang, Koji Okabe, Kong Aik Lee, Takafumi Koshinaka

ISSN: 1556-6013, 1556-6021

Veröffentlicht: Institute of Electrical and Electronics Engineers (IEEE) 01.01.2023

Veröffentlicht in IEEE Transactions on Information Forensics and Security (01.01.2023)

Volltext

Journal Article

Zu den Favoriten

Gespeichert in:
5

Wird geladen …

Investigation of Japanese PnG BERT Language Model in Text-to-Speech Synthesis for Pitch Accent Language von Yusuke Yasuda, Tomoki Toda

ISSN: 1932-4553, 1941-0484

Veröffentlicht: Institute of Electrical and Electronics Engineers (IEEE) 01.10.2022

Veröffentlicht in IEEE Journal of Selected Topics in Signal Processing (01.10.2022)

Volltext

Journal Article

Zu den Favoriten

Gespeichert in:
6

Wird geladen …

Learning and controlling the source-filter representation of speech with a variational autoencoder von Sadok, Samir, Leglaive, Simon, Girin, Laurent, Alameda-Pineda, Xavier, Seguier, Renaud

ISSN: 0167-6393

Veröffentlicht: Elsevier BV 01.03.2023

Veröffentlicht in Speech Communication (01.03.2023)

Volltext

Journal Article

Zu den Favoriten

Gespeichert in:
7

Wird geladen …

CASA-based speaker identification using cascaded GMM-CNN classifier in noisy and emotional talking conditions von Nawel Nemmour, Keikichi Hirose, Shibani Hamsa, Ismail Shahin, Ali Bou Nassif

ISSN: 1568-4946

Veröffentlicht: Elsevier BV 01.05.2021

Veröffentlicht in Applied Soft Computing (01.05.2021)

Volltext

Journal Article

Zu den Favoriten

Gespeichert in:
8

Wird geladen …

GEDI: Gammachirp envelope distortion index for predicting intelligibility of enhanced speech von Shoko Araki, Keisuke Kinoshita, Katsuhiko Yamamoto, Toshio Irino, Tomohiro Nakatani

ISSN: 0167-6393

Veröffentlicht: Elsevier BV 01.10.2020

Veröffentlicht in Speech Communication (01.10.2020)

Volltext

Journal Article

Zu den Favoriten

Gespeichert in:
9

Wird geladen …

PeriodGrad: Towards Pitch-Controllable Neural Vocoder Based on a Diffusion Probabilistic Model von Hono, Yukiya, Hashimoto, Kei, Nankaku, Yoshihiko, Tokuda, Keiichi

ISSN: 2379-190X

Veröffentlicht: IEEE 14.04.2024

Veröffentlicht in Proceedings of the ... IEEE International Conference on Acoustics, Speech and Signal Processing (1998) (14.04.2024)
“… In practical applications, such as singing voice synthesis, there is a demand for neural vocoders to generate high-fidelity speech waveforms with flexible pitch control …”

Volltext

Tagungsbericht

Zu den Favoriten

Gespeichert in:
10

Wird geladen …

A Large-Scale Evaluation of Speech Foundation Models von Shu-wen Yang, Heng-Jui Chang, Zili Huang, Andy T. Liu, Cheng-I Lai, Haibin Wu, Jiatong Shi, Xuankai Chang, Hsiang-Sheng Tsai, Wen-Chin Huang, Tzu-hsun Feng, Po-Han Chi, Yist Y. Lin, Yung-Sung Chuang, Tzu-Hsien Huang, Wei-Cheng Tseng, Kushal Lakhotia, Shang-Wen Li, Abdelrahman Mohamed, Shinji Watanabe, Hung-yi Lee

ISSN: 2329-9290, 2329-9304

Veröffentlicht: Institute of Electrical and Electronics Engineers (IEEE) 01.01.2024

Veröffentlicht in IEEE/ACM Transactions on Audio, Speech, and Language Processing (01.01.2024)

Volltext

Journal Article

Zu den Favoriten

Gespeichert in:
11

Wird geladen …

MOS-FAD: Improving Fake Audio Detection Via Automatic Mean Opinion Score Prediction von Zhou, Wangjin, Yang, Zhengdong, Chu, Chenhui, Li, Sheng, Dabre, Raj, Zhao, Yi, Tatsuya, Kawahara

ISSN: 2379-190X

Veröffentlicht: IEEE 14.04.2024

Veröffentlicht in Proceedings of the ... IEEE International Conference on Acoustics, Speech and Signal Processing (1998) (14.04.2024)
“… This study extends the application of predicted MOS to the task of Fake Audio Detection (FAD) as we expect that MOS can be used to assess how close synthesized speech is to the natural human voice …”

Volltext

Tagungsbericht

Zu den Favoriten

Gespeichert in:
12

Wird geladen …

ELP-Adapters: Parameter Efficient Adapter Tuning for Various Speech Processing Tasks von Nakamasa Inoue, Shinta Otake, Takumi Hirose, Masanari Ohi, Rei Kawakami

ISSN: 2329-9290, 2329-9304

Veröffentlicht: Institute of Electrical and Electronics Engineers (IEEE) 01.01.2024

Veröffentlicht in IEEE/ACM Transactions on Audio, Speech, and Language Processing (01.01.2024)

Volltext

Journal Article

Zu den Favoriten

Gespeichert in:
13

Wird geladen …

Bass Accompaniment Generation Via Latent Diffusion von Pasini, Marco, Grachten, Maarten, Lattner, Stefan

ISSN: 2379-190X

Veröffentlicht: IEEE 14.04.2024

Veröffentlicht in Proceedings of the ... IEEE International Conference on Acoustics, Speech and Signal Processing (1998) (14.04.2024)
“… We present a novel controllable system for generating single stems to accompany musical mixes of arbitrary length …”

Volltext

Tagungsbericht

Zu den Favoriten

Gespeichert in:
14

Wird geladen …

RISC: A Corpus for Shout Type Classification and Shout Intensity Prediction von Takahiro Fukumori, Taito Ishida, Yoichi Yamashita

ISSN: 2329-9290, 2329-9304

Veröffentlicht: Institute of Electrical and Electronics Engineers (IEEE) 01.01.2024

Veröffentlicht in IEEE/ACM Transactions on Audio, Speech, and Language Processing (01.01.2024)

Volltext

Journal Article

Zu den Favoriten

Gespeichert in:
15

Wird geladen …

Data Driven Grapheme-to-Phoneme Representations for a Lexicon-Free Text-to-Speech von Garg, Abhinav, Kim, Jiyeon, Khyalia, Sushil, Kim, Chanwoo, Gowda, Dhananjaya

ISSN: 2379-190X

Veröffentlicht: IEEE 14.04.2024

Veröffentlicht in Proceedings of the ... IEEE International Conference on Acoustics, Speech and Signal Processing (1998) (14.04.2024)
“… Grapheme-to-Phoneme (G2P) is an essential first step in any modern, high-quality Text-to-Speech (TTS) system …”

Volltext

Tagungsbericht

Zu den Favoriten

Gespeichert in:
16

Wird geladen …

The VoicePrivacy 2022 Challenge: Progress and Perspectives in Voice Anonymisation von Michele Panariello, Natalia Tomashenko, Xin Wang, Xiaoxiao Miao, Pierre Champion, Hubert Nourtel, Massimiliano Todisco, Nicholas Evans, Emmanuel Vincent, Junichi Yamagishi

ISSN: 2329-9290, 2329-9304

Veröffentlicht: Institute of Electrical and Electronics Engineers (IEEE) 01.01.2024

Veröffentlicht in IEEE/ACM Transactions on Audio, Speech, and Language Processing (01.01.2024)

Volltext

Journal Article

Zu den Favoriten

Gespeichert in:
17

Wird geladen …

FastMVAE2: On Improving and Accelerating the Fast Variational Autoencoder-Based Source Separation Algorithm for Determined Mixtures von Li Li, Hirokazu Kameoka, Shoji Makino

ISSN: 2329-9290, 2329-9304

Veröffentlicht: Institute of Electrical and Electronics Engineers (IEEE) 01.01.2023

Veröffentlicht in IEEE/ACM Transactions on Audio, Speech, and Language Processing (01.01.2023)

Volltext

Journal Article

Zu den Favoriten

Gespeichert in:
18

Wird geladen …

Decoupling Speaker-Independent Emotions for Voice Conversion via Source-Filter Networks von Zhaojie Luo, Shoufeng Lin, Rui Liu, Jun Baba, Yuichiro Yoshikawa, Hiroshi Ishiguro

ISSN: 2329-9290, 2329-9304

Veröffentlicht: Institute of Electrical and Electronics Engineers (IEEE) 01.01.2023

Veröffentlicht in IEEE/ACM Transactions on Audio, Speech, and Language Processing (01.01.2023)

Volltext

Journal Article

Zu den Favoriten

Gespeichert in:
19

Wird geladen …

Localizing Acoustic Energy in Sound Field Synthesis by Directionally Weighted Exterior Radiation Suppression von Tomita, Yoshihide, Koyama, Shoichi, Saruwatari, Hiroshi

ISSN: 2379-190X

Veröffentlicht: IEEE 14.04.2024

Veröffentlicht in Proceedings of the ... IEEE International Conference on Acoustics, Speech and Signal Processing (1998) (14.04.2024)
“… The exterior radiation from the loudspeakers in sound field synthesis systems can be problematic in practical situations …”

Volltext

Tagungsbericht

Zu den Favoriten

Gespeichert in:
20

Wird geladen …

Cross-Corpus Multilingual Speech Emotion Recognition: Amharic vs. Other Languages von Ephrem Afele Retta, Richard Sutcliffe, Jabar Mahmood, Michael Abebe Berwo, Eiad Almekhlafi, Sajjad Ahmad Khan, Shehzad Ashraf Chaudhry, Mustafa Mhamed, Jun Feng

ISSN: 2076-3417

Veröffentlicht: MDPI AG 22.11.2023

Veröffentlicht in Applied Sciences (22.11.2023)

Volltext

Journal Article

Zu den Favoriten

Gespeichert in:

Suchergebnisse - Electrical Engineering and Systems Science - Audio and Speech Processing

Procurement Of Dsp Enabled Evaluation Kit For Speech And Audio Signal Processing At The Department Of Electronics Electrical Communication Engineering Department, Iit

Versatile Time-Frequency Representations Realized by Convex Penalty on Magnitude Spectrogram von Keidai Arai, Koki Yamada, Kohei Yatabe

Expression-Preserving Face Frontalization Improves Visually Assisted Speech Processing von Zhiqi Kang, Mostafa Sadeghi, Radu Horaud, Xavier Alameda-Pineda

Generalized Domain Adaptation Framework for Parametric Back-End in Speaker Recognition von Qiongqiong Wang, Koji Okabe, Kong Aik Lee, Takafumi Koshinaka

Investigation of Japanese PnG BERT Language Model in Text-to-Speech Synthesis for Pitch Accent Language von Yusuke Yasuda, Tomoki Toda

Learning and controlling the source-filter representation of speech with a variational autoencoder von Sadok, Samir, Leglaive, Simon, Girin, Laurent, Alameda-Pineda, Xavier, Seguier, Renaud

CASA-based speaker identification using cascaded GMM-CNN classifier in noisy and emotional talking conditions von Nawel Nemmour, Keikichi Hirose, Shibani Hamsa, Ismail Shahin, Ali Bou Nassif

GEDI: Gammachirp envelope distortion index for predicting intelligibility of enhanced speech von Shoko Araki, Keisuke Kinoshita, Katsuhiko Yamamoto, Toshio Irino, Tomohiro Nakatani

PeriodGrad: Towards Pitch-Controllable Neural Vocoder Based on a Diffusion Probabilistic Model von Hono, Yukiya, Hashimoto, Kei, Nankaku, Yoshihiko, Tokuda, Keiichi

MOS-FAD: Improving Fake Audio Detection Via Automatic Mean Opinion Score Prediction von Zhou, Wangjin, Yang, Zhengdong, Chu, Chenhui, Li, Sheng, Dabre, Raj, Zhao, Yi, Tatsuya, Kawahara

ELP-Adapters: Parameter Efficient Adapter Tuning for Various Speech Processing Tasks von Nakamasa Inoue, Shinta Otake, Takumi Hirose, Masanari Ohi, Rei Kawakami

Bass Accompaniment Generation Via Latent Diffusion von Pasini, Marco, Grachten, Maarten, Lattner, Stefan

RISC: A Corpus for Shout Type Classification and Shout Intensity Prediction von Takahiro Fukumori, Taito Ishida, Yoichi Yamashita

Data Driven Grapheme-to-Phoneme Representations for a Lexicon-Free Text-to-Speech von Garg, Abhinav, Kim, Jiyeon, Khyalia, Sushil, Kim, Chanwoo, Gowda, Dhananjaya

The VoicePrivacy 2022 Challenge: Progress and Perspectives in Voice Anonymisation von Michele Panariello, Natalia Tomashenko, Xin Wang, Xiaoxiao Miao, Pierre Champion, Hubert Nourtel, Massimiliano Todisco, Nicholas Evans, Emmanuel Vincent, Junichi Yamagishi

FastMVAE2: On Improving and Accelerating the Fast Variational Autoencoder-Based Source Separation Algorithm for Determined Mixtures von Li Li, Hirokazu Kameoka, Shoji Makino

Decoupling Speaker-Independent Emotions for Voice Conversion via Source-Filter Networks von Zhaojie Luo, Shoufeng Lin, Rui Liu, Jun Baba, Yuichiro Yoshikawa, Hiroshi Ishiguro

Localizing Acoustic Energy in Sound Field Synthesis by Directionally Weighted Exterior Radiation Suppression von Tomita, Yoshihide, Koyama, Shoichi, Saruwatari, Hiroshi

Cross-Corpus Multilingual Speech Emotion Recognition: Amharic vs. Other Languages von Ephrem Afele Retta, Richard Sutcliffe, Jabar Mahmood, Michael Abebe Berwo, Eiad Almekhlafi, Sajjad Ahmad Khan, Shehzad Ashraf Chaudhry, Mustafa Mhamed, Jun Feng

Suchwerkzeuge:

Treffer weiter einschränken

Format

Schlagwortumfeld

Thema

Sprache

Erscheinungsjahr