Suchergebnisse - "Electrical Engineering and Systems Science - Audio and Speech Processing"

1

Wird geladen …

Generalized Domain Adaptation Framework for Parametric Back-End in Speaker Recognition von Qiongqiong Wang, Koji Okabe, Kong Aik Lee, Takafumi Koshinaka

ISSN: 1556-6013, 1556-6021

Veröffentlicht: Institute of Electrical and Electronics Engineers (IEEE) 01.01.2023

Veröffentlicht in IEEE Transactions on Information Forensics and Security (01.01.2023)

Volltext

Journal Article

Zu den Favoriten

Gespeichert in:
2

Wird geladen …

Versatile Time-Frequency Representations Realized by Convex Penalty on Magnitude Spectrogram von Keidai Arai, Koki Yamada, Kohei Yatabe

ISSN: 1070-9908, 1558-2361

Veröffentlicht: Institute of Electrical and Electronics Engineers (IEEE) 01.01.2023

Veröffentlicht in IEEE Signal Processing Letters (01.01.2023)

Volltext

Journal Article

Zu den Favoriten

Gespeichert in:
3

Wird geladen …

Investigation of Japanese PnG BERT Language Model in Text-to-Speech Synthesis for Pitch Accent Language von Yusuke Yasuda, Tomoki Toda

ISSN: 1932-4553, 1941-0484

Veröffentlicht: Institute of Electrical and Electronics Engineers (IEEE) 01.10.2022

Veröffentlicht in IEEE Journal of Selected Topics in Signal Processing (01.10.2022)

Volltext

Journal Article

Zu den Favoriten

Gespeichert in:
4

Wird geladen …

Expression-Preserving Face Frontalization Improves Visually Assisted Speech Processing von Zhiqi Kang, Mostafa Sadeghi, Radu Horaud, Xavier Alameda-Pineda

ISSN: 0920-5691, 1573-1405

Veröffentlicht: Springer Science and Business Media LLC 12.01.2023

Veröffentlicht in International Journal of Computer Vision (12.01.2023)

Volltext

Journal Article

Zu den Favoriten

Gespeichert in:
5

Wird geladen …

CASA-based speaker identification using cascaded GMM-CNN classifier in noisy and emotional talking conditions von Nawel Nemmour, Keikichi Hirose, Shibani Hamsa, Ismail Shahin, Ali Bou Nassif

ISSN: 1568-4946

Veröffentlicht: Elsevier BV 01.05.2021

Veröffentlicht in Applied Soft Computing (01.05.2021)

Volltext

Journal Article

Zu den Favoriten

Gespeichert in:
6

Wird geladen …

Bass Accompaniment Generation Via Latent Diffusion von Pasini, Marco, Grachten, Maarten, Lattner, Stefan

ISSN: 2379-190X

Veröffentlicht: IEEE 14.04.2024

Veröffentlicht in Proceedings of the ... IEEE International Conference on Acoustics, Speech and Signal Processing (1998) (14.04.2024)
“… The ability to automatically generate music that appropriately matches an arbitrary input track is a challenging task. We present a novel controllable system …”

Volltext

Tagungsbericht

Zu den Favoriten

Gespeichert in:
7

Wird geladen …

GEDI: Gammachirp envelope distortion index for predicting intelligibility of enhanced speech von Shoko Araki, Keisuke Kinoshita, Katsuhiko Yamamoto, Toshio Irino, Tomohiro Nakatani

ISSN: 0167-6393

Veröffentlicht: Elsevier BV 01.10.2020

Veröffentlicht in Speech Communication (01.10.2020)

Volltext

Journal Article

Zu den Favoriten

Gespeichert in:
8

Wird geladen …

Learning and controlling the source-filter representation of speech with a variational autoencoder von Sadok, Samir, Leglaive, Simon, Girin, Laurent, Alameda-Pineda, Xavier, Seguier, Renaud

ISSN: 0167-6393

Veröffentlicht: Elsevier BV 01.03.2023

Veröffentlicht in Speech Communication (01.03.2023)

Volltext

Journal Article

Zu den Favoriten

Gespeichert in:
9

Wird geladen …

RISC: A Corpus for Shout Type Classification and Shout Intensity Prediction von Takahiro Fukumori, Taito Ishida, Yoichi Yamashita

ISSN: 2329-9290, 2329-9304

Veröffentlicht: Institute of Electrical and Electronics Engineers (IEEE) 01.01.2024

Veröffentlicht in IEEE/ACM Transactions on Audio, Speech, and Language Processing (01.01.2024)

Volltext

Journal Article

Zu den Favoriten

Gespeichert in:
10

Wird geladen …

PeriodGrad: Towards Pitch-Controllable Neural Vocoder Based on a Diffusion Probabilistic Model von Hono, Yukiya, Hashimoto, Kei, Nankaku, Yoshihiko, Tokuda, Keiichi

ISSN: 2379-190X

Veröffentlicht: IEEE 14.04.2024

Veröffentlicht in Proceedings of the ... IEEE International Conference on Acoustics, Speech and Signal Processing (1998) (14.04.2024)
“… This paper presents a neural vocoder based on a denoising diffusion probabilistic model (DDPM) incorporating explicit periodic signals as auxiliary …”

Volltext

Tagungsbericht

Zu den Favoriten

Gespeichert in:
11

Wird geladen …

MOS-FAD: Improving Fake Audio Detection Via Automatic Mean Opinion Score Prediction von Zhou, Wangjin, Yang, Zhengdong, Chu, Chenhui, Li, Sheng, Dabre, Raj, Zhao, Yi, Tatsuya, Kawahara

ISSN: 2379-190X

Veröffentlicht: IEEE 14.04.2024

Veröffentlicht in Proceedings of the ... IEEE International Conference on Acoustics, Speech and Signal Processing (1998) (14.04.2024)
“… IEEE Automatic Mean Opinion Score (MOS) prediction is employed to evaluate the quality of synthetic speech. This study extends the application of predicted MOS …”

Volltext

Tagungsbericht

Zu den Favoriten

Gespeichert in:
12

Wird geladen …

FastMVAE2: On Improving and Accelerating the Fast Variational Autoencoder-Based Source Separation Algorithm for Determined Mixtures von Li Li, Hirokazu Kameoka, Shoji Makino

ISSN: 2329-9290, 2329-9304

Veröffentlicht: Institute of Electrical and Electronics Engineers (IEEE) 01.01.2023

Veröffentlicht in IEEE/ACM Transactions on Audio, Speech, and Language Processing (01.01.2023)

Volltext

Journal Article

Zu den Favoriten

Gespeichert in:
13

Wird geladen …

Data Driven Grapheme-to-Phoneme Representations for a Lexicon-Free Text-to-Speech von Garg, Abhinav, Kim, Jiyeon, Khyalia, Sushil, Kim, Chanwoo, Gowda, Dhananjaya

ISSN: 2379-190X

Veröffentlicht: IEEE 14.04.2024

Veröffentlicht in Proceedings of the ... IEEE International Conference on Acoustics, Speech and Signal Processing (1998) (14.04.2024)
“… Grapheme-to-Phoneme (G2P) is an essential first step in any modern, high-quality Text-to-Speech (TTS) system. Most of the current G2P systems rely on carefully …”

Volltext

Tagungsbericht

Zu den Favoriten

Gespeichert in:
14

Wird geladen …

The VoicePrivacy 2022 Challenge: Progress and Perspectives in Voice Anonymisation von Michele Panariello, Natalia Tomashenko, Xin Wang, Xiaoxiao Miao, Pierre Champion, Hubert Nourtel, Massimiliano Todisco, Nicholas Evans, Emmanuel Vincent, Junichi Yamagishi

ISSN: 2329-9290, 2329-9304

Veröffentlicht: Institute of Electrical and Electronics Engineers (IEEE) 01.01.2024

Veröffentlicht in IEEE/ACM Transactions on Audio, Speech, and Language Processing (01.01.2024)

Volltext

Journal Article

Zu den Favoriten

Gespeichert in:
15

Wird geladen …

ELP-Adapters: Parameter Efficient Adapter Tuning for Various Speech Processing Tasks von Nakamasa Inoue, Shinta Otake, Takumi Hirose, Masanari Ohi, Rei Kawakami

ISSN: 2329-9290, 2329-9304

Veröffentlicht: Institute of Electrical and Electronics Engineers (IEEE) 01.01.2024

Veröffentlicht in IEEE/ACM Transactions on Audio, Speech, and Language Processing (01.01.2024)

Volltext

Journal Article

Zu den Favoriten

Gespeichert in:
16

Wird geladen …

A Large-Scale Evaluation of Speech Foundation Models von Shu-wen Yang, Heng-Jui Chang, Zili Huang, Andy T. Liu, Cheng-I Lai, Haibin Wu, Jiatong Shi, Xuankai Chang, Hsiang-Sheng Tsai, Wen-Chin Huang, Tzu-hsun Feng, Po-Han Chi, Yist Y. Lin, Yung-Sung Chuang, Tzu-Hsien Huang, Wei-Cheng Tseng, Kushal Lakhotia, Shang-Wen Li, Abdelrahman Mohamed, Shinji Watanabe, Hung-yi Lee

ISSN: 2329-9290, 2329-9304

Veröffentlicht: Institute of Electrical and Electronics Engineers (IEEE) 01.01.2024

Veröffentlicht in IEEE/ACM Transactions on Audio, Speech, and Language Processing (01.01.2024)

Volltext

Journal Article

Zu den Favoriten

Gespeichert in:
17

Wird geladen …

Localizing Acoustic Energy in Sound Field Synthesis by Directionally Weighted Exterior Radiation Suppression von Tomita, Yoshihide, Koyama, Shoichi, Saruwatari, Hiroshi

ISSN: 2379-190X

Veröffentlicht: IEEE 14.04.2024

Veröffentlicht in Proceedings of the ... IEEE International Conference on Acoustics, Speech and Signal Processing (1998) (14.04.2024)
“… A method for synthesizing the desired sound field while suppressing the exterior radiation power with directional weighting is proposed. The exterior radiation …”

Volltext

Tagungsbericht

Zu den Favoriten

Gespeichert in:
18

Wird geladen …

Optimizing multi-user indoor sound communications with acoustic reconfigurable metasurfaces von Hongkuan Zhang, Qiyuan Wang, Mathias Fink, Guancong Ma

ISSN: 2041-1723

Veröffentlicht: Springer Science and Business Media LLC 10.02.2024

Veröffentlicht in Nature Communications (10.02.2024)

Volltext

Journal Article

Zu den Favoriten

Gespeichert in:
19

Wird geladen …

A Novel Temporal Attentive-Pooling based Convolutional Recurrent Architecture for Acoustic Signal Enhancement von Tassadaq Hussain, Wei-Chien Wang, Mandar Gogate, Kia Dashtipour, Yu Tsao, Xugang Lu, Adeel Ahsan, Amir Hussain

ISSN: 2691-4581

Veröffentlicht: Institute of Electrical and Electronics Engineers (IEEE) 01.10.2022

Veröffentlicht in IEEE Transactions on Artificial Intelligence (01.10.2022)

Volltext

Journal Article

Zu den Favoriten

Gespeichert in:
20

Wird geladen …

Decoupling Speaker-Independent Emotions for Voice Conversion via Source-Filter Networks von Zhaojie Luo, Shoufeng Lin, Rui Liu, Jun Baba, Yuichiro Yoshikawa, Hiroshi Ishiguro

ISSN: 2329-9290, 2329-9304

Veröffentlicht: Institute of Electrical and Electronics Engineers (IEEE) 01.01.2023

Veröffentlicht in IEEE/ACM Transactions on Audio, Speech, and Language Processing (01.01.2023)

Volltext

Journal Article

Zu den Favoriten

Gespeichert in:

Suchergebnisse - "Electrical Engineering and Systems Science - Audio and Speech Processing"

Generalized Domain Adaptation Framework for Parametric Back-End in Speaker Recognition von Qiongqiong Wang, Koji Okabe, Kong Aik Lee, Takafumi Koshinaka

Versatile Time-Frequency Representations Realized by Convex Penalty on Magnitude Spectrogram von Keidai Arai, Koki Yamada, Kohei Yatabe

Investigation of Japanese PnG BERT Language Model in Text-to-Speech Synthesis for Pitch Accent Language von Yusuke Yasuda, Tomoki Toda

Expression-Preserving Face Frontalization Improves Visually Assisted Speech Processing von Zhiqi Kang, Mostafa Sadeghi, Radu Horaud, Xavier Alameda-Pineda

CASA-based speaker identification using cascaded GMM-CNN classifier in noisy and emotional talking conditions von Nawel Nemmour, Keikichi Hirose, Shibani Hamsa, Ismail Shahin, Ali Bou Nassif

Bass Accompaniment Generation Via Latent Diffusion von Pasini, Marco, Grachten, Maarten, Lattner, Stefan

GEDI: Gammachirp envelope distortion index for predicting intelligibility of enhanced speech von Shoko Araki, Keisuke Kinoshita, Katsuhiko Yamamoto, Toshio Irino, Tomohiro Nakatani

Learning and controlling the source-filter representation of speech with a variational autoencoder von Sadok, Samir, Leglaive, Simon, Girin, Laurent, Alameda-Pineda, Xavier, Seguier, Renaud

RISC: A Corpus for Shout Type Classification and Shout Intensity Prediction von Takahiro Fukumori, Taito Ishida, Yoichi Yamashita

PeriodGrad: Towards Pitch-Controllable Neural Vocoder Based on a Diffusion Probabilistic Model von Hono, Yukiya, Hashimoto, Kei, Nankaku, Yoshihiko, Tokuda, Keiichi

MOS-FAD: Improving Fake Audio Detection Via Automatic Mean Opinion Score Prediction von Zhou, Wangjin, Yang, Zhengdong, Chu, Chenhui, Li, Sheng, Dabre, Raj, Zhao, Yi, Tatsuya, Kawahara

FastMVAE2: On Improving and Accelerating the Fast Variational Autoencoder-Based Source Separation Algorithm for Determined Mixtures von Li Li, Hirokazu Kameoka, Shoji Makino

Data Driven Grapheme-to-Phoneme Representations for a Lexicon-Free Text-to-Speech von Garg, Abhinav, Kim, Jiyeon, Khyalia, Sushil, Kim, Chanwoo, Gowda, Dhananjaya

The VoicePrivacy 2022 Challenge: Progress and Perspectives in Voice Anonymisation von Michele Panariello, Natalia Tomashenko, Xin Wang, Xiaoxiao Miao, Pierre Champion, Hubert Nourtel, Massimiliano Todisco, Nicholas Evans, Emmanuel Vincent, Junichi Yamagishi

ELP-Adapters: Parameter Efficient Adapter Tuning for Various Speech Processing Tasks von Nakamasa Inoue, Shinta Otake, Takumi Hirose, Masanari Ohi, Rei Kawakami

Localizing Acoustic Energy in Sound Field Synthesis by Directionally Weighted Exterior Radiation Suppression von Tomita, Yoshihide, Koyama, Shoichi, Saruwatari, Hiroshi

Optimizing multi-user indoor sound communications with acoustic reconfigurable metasurfaces von Hongkuan Zhang, Qiyuan Wang, Mathias Fink, Guancong Ma

A Novel Temporal Attentive-Pooling based Convolutional Recurrent Architecture for Acoustic Signal Enhancement von Tassadaq Hussain, Wei-Chien Wang, Mandar Gogate, Kia Dashtipour, Yu Tsao, Xugang Lu, Adeel Ahsan, Amir Hussain

Decoupling Speaker-Independent Emotions for Voice Conversion via Source-Filter Networks von Zhaojie Luo, Shoufeng Lin, Rui Liu, Jun Baba, Yuichiro Yoshikawa, Hiroshi Ishiguro

Suchwerkzeuge:

Treffer weiter einschränken

Format

Schlagwortumfeld

Thema

Sprache

Erscheinungsjahr