Výsledky vyhledávání - Electrical Engineering and Systems Science - Audio and Speech Processing

1

Načítá se…

Procurement Of Dsp Enabled Evaluation Kit For Speech And Audio Signal Processing At The Department Of Electronics Electrical Communication Engineering Department, Iit

ISSN: 2219-0112

Vydáno: Camden Disco Digital Media, Inc 21.06.2025

Vydáno v MENA Report (21.06.2025)

Získat plný text

Newsletter

Přidat do oblíbených

Uloženo v:
2

Načítá se…

Versatile Time-Frequency Representations Realized by Convex Penalty on Magnitude Spectrogram Autor Keidai Arai, Koki Yamada, Kohei Yatabe

ISSN: 1070-9908, 1558-2361

Vydáno: Institute of Electrical and Electronics Engineers (IEEE) 01.01.2023

Vydáno v IEEE Signal Processing Letters (01.01.2023)

Získat plný text

Journal Article

Přidat do oblíbených

Uloženo v:
3

Načítá se…

Expression-Preserving Face Frontalization Improves Visually Assisted Speech Processing Autor Zhiqi Kang, Mostafa Sadeghi, Radu Horaud, Xavier Alameda-Pineda

ISSN: 0920-5691, 1573-1405

Vydáno: Springer Science and Business Media LLC 12.01.2023

Vydáno v International Journal of Computer Vision (12.01.2023)

Získat plný text

Journal Article

Přidat do oblíbených

Uloženo v:
4

Načítá se…

Generalized Domain Adaptation Framework for Parametric Back-End in Speaker Recognition Autor Qiongqiong Wang, Koji Okabe, Kong Aik Lee, Takafumi Koshinaka

ISSN: 1556-6013, 1556-6021

Vydáno: Institute of Electrical and Electronics Engineers (IEEE) 01.01.2023

Vydáno v IEEE Transactions on Information Forensics and Security (01.01.2023)

Získat plný text

Journal Article

Přidat do oblíbených

Uloženo v:
5

Načítá se…

Investigation of Japanese PnG BERT Language Model in Text-to-Speech Synthesis for Pitch Accent Language Autor Yusuke Yasuda, Tomoki Toda

ISSN: 1932-4553, 1941-0484

Vydáno: Institute of Electrical and Electronics Engineers (IEEE) 01.10.2022

Vydáno v IEEE Journal of Selected Topics in Signal Processing (01.10.2022)

Získat plný text

Journal Article

Přidat do oblíbených

Uloženo v:
6

Načítá se…

Learning and controlling the source-filter representation of speech with a variational autoencoder Autor Sadok, Samir, Leglaive, Simon, Girin, Laurent, Alameda-Pineda, Xavier, Seguier, Renaud

ISSN: 0167-6393

Vydáno: Elsevier BV 01.03.2023

Vydáno v Speech Communication (01.03.2023)

Získat plný text

Journal Article

Přidat do oblíbených

Uloženo v:
7

Načítá se…

CASA-based speaker identification using cascaded GMM-CNN classifier in noisy and emotional talking conditions Autor Nawel Nemmour, Keikichi Hirose, Shibani Hamsa, Ismail Shahin, Ali Bou Nassif

ISSN: 1568-4946

Vydáno: Elsevier BV 01.05.2021

Vydáno v Applied Soft Computing (01.05.2021)

Získat plný text

Journal Article

Přidat do oblíbených

Uloženo v:
8

Načítá se…

GEDI: Gammachirp envelope distortion index for predicting intelligibility of enhanced speech Autor Shoko Araki, Keisuke Kinoshita, Katsuhiko Yamamoto, Toshio Irino, Tomohiro Nakatani

ISSN: 0167-6393

Vydáno: Elsevier BV 01.10.2020

Vydáno v Speech Communication (01.10.2020)

Získat plný text

Journal Article

Přidat do oblíbených

Uloženo v:
9

Načítá se…

PeriodGrad: Towards Pitch-Controllable Neural Vocoder Based on a Diffusion Probabilistic Model Autor Hono, Yukiya, Hashimoto, Kei, Nankaku, Yoshihiko, Tokuda, Keiichi

ISSN: 2379-190X

Vydáno: IEEE 14.04.2024

Vydáno v Proceedings of the ... IEEE International Conference on Acoustics, Speech and Signal Processing (1998) (14.04.2024)
“… In practical applications, such as singing voice synthesis, there is a demand for neural vocoders to generate high-fidelity speech waveforms with flexible pitch control…”

Získat plný text

Konferenční příspěvek

Přidat do oblíbených

Uloženo v:
10

Načítá se…

A Large-Scale Evaluation of Speech Foundation Models Autor Shu-wen Yang, Heng-Jui Chang, Zili Huang, Andy T. Liu, Cheng-I Lai, Haibin Wu, Jiatong Shi, Xuankai Chang, Hsiang-Sheng Tsai, Wen-Chin Huang, Tzu-hsun Feng, Po-Han Chi, Yist Y. Lin, Yung-Sung Chuang, Tzu-Hsien Huang, Wei-Cheng Tseng, Kushal Lakhotia, Shang-Wen Li, Abdelrahman Mohamed, Shinji Watanabe, Hung-yi Lee

ISSN: 2329-9290, 2329-9304

Vydáno: Institute of Electrical and Electronics Engineers (IEEE) 01.01.2024

Vydáno v IEEE/ACM Transactions on Audio, Speech, and Language Processing (01.01.2024)

Získat plný text

Journal Article

Přidat do oblíbených

Uloženo v:
11

Načítá se…

MOS-FAD: Improving Fake Audio Detection Via Automatic Mean Opinion Score Prediction Autor Zhou, Wangjin, Yang, Zhengdong, Chu, Chenhui, Li, Sheng, Dabre, Raj, Zhao, Yi, Tatsuya, Kawahara

ISSN: 2379-190X

Vydáno: IEEE 14.04.2024

Vydáno v Proceedings of the ... IEEE International Conference on Acoustics, Speech and Signal Processing (1998) (14.04.2024)
“… This study extends the application of predicted MOS to the task of Fake Audio Detection (FAD) as we expect that MOS can be used to assess how close synthesized speech is to the natural human voice…”

Získat plný text

Konferenční příspěvek

Přidat do oblíbených

Uloženo v:
12

Načítá se…

ELP-Adapters: Parameter Efficient Adapter Tuning for Various Speech Processing Tasks Autor Nakamasa Inoue, Shinta Otake, Takumi Hirose, Masanari Ohi, Rei Kawakami

ISSN: 2329-9290, 2329-9304

Vydáno: Institute of Electrical and Electronics Engineers (IEEE) 01.01.2024

Vydáno v IEEE/ACM Transactions on Audio, Speech, and Language Processing (01.01.2024)

Získat plný text

Journal Article

Přidat do oblíbených

Uloženo v:
13

Načítá se…

Bass Accompaniment Generation Via Latent Diffusion Autor Pasini, Marco, Grachten, Maarten, Lattner, Stefan

ISSN: 2379-190X

Vydáno: IEEE 14.04.2024

Vydáno v Proceedings of the ... IEEE International Conference on Acoustics, Speech and Signal Processing (1998) (14.04.2024)
“… We present a novel controllable system for generating single stems to accompany musical mixes of arbitrary length…”

Získat plný text

Konferenční příspěvek

Přidat do oblíbených

Uloženo v:
14

Načítá se…

RISC: A Corpus for Shout Type Classification and Shout Intensity Prediction Autor Takahiro Fukumori, Taito Ishida, Yoichi Yamashita

ISSN: 2329-9290, 2329-9304

Vydáno: Institute of Electrical and Electronics Engineers (IEEE) 01.01.2024

Vydáno v IEEE/ACM Transactions on Audio, Speech, and Language Processing (01.01.2024)

Získat plný text

Journal Article

Přidat do oblíbených

Uloženo v:
15

Načítá se…

Data Driven Grapheme-to-Phoneme Representations for a Lexicon-Free Text-to-Speech Autor Garg, Abhinav, Kim, Jiyeon, Khyalia, Sushil, Kim, Chanwoo, Gowda, Dhananjaya

ISSN: 2379-190X

Vydáno: IEEE 14.04.2024

Vydáno v Proceedings of the ... IEEE International Conference on Acoustics, Speech and Signal Processing (1998) (14.04.2024)
“…Grapheme-to-Phoneme (G2P) is an essential first step in any modern, high-quality Text-to-Speech (TTS) system…”

Získat plný text

Konferenční příspěvek

Přidat do oblíbených

Uloženo v:
16

Načítá se…

The VoicePrivacy 2022 Challenge: Progress and Perspectives in Voice Anonymisation Autor Michele Panariello, Natalia Tomashenko, Xin Wang, Xiaoxiao Miao, Pierre Champion, Hubert Nourtel, Massimiliano Todisco, Nicholas Evans, Emmanuel Vincent, Junichi Yamagishi

ISSN: 2329-9290, 2329-9304

Vydáno: Institute of Electrical and Electronics Engineers (IEEE) 01.01.2024

Vydáno v IEEE/ACM Transactions on Audio, Speech, and Language Processing (01.01.2024)

Získat plný text

Journal Article

Přidat do oblíbených

Uloženo v:
17

Načítá se…

FastMVAE2: On Improving and Accelerating the Fast Variational Autoencoder-Based Source Separation Algorithm for Determined Mixtures Autor Li Li, Hirokazu Kameoka, Shoji Makino

ISSN: 2329-9290, 2329-9304

Vydáno: Institute of Electrical and Electronics Engineers (IEEE) 01.01.2023

Vydáno v IEEE/ACM Transactions on Audio, Speech, and Language Processing (01.01.2023)

Získat plný text

Journal Article

Přidat do oblíbených

Uloženo v:
18

Načítá se…

Decoupling Speaker-Independent Emotions for Voice Conversion via Source-Filter Networks Autor Zhaojie Luo, Shoufeng Lin, Rui Liu, Jun Baba, Yuichiro Yoshikawa, Hiroshi Ishiguro

ISSN: 2329-9290, 2329-9304

Vydáno: Institute of Electrical and Electronics Engineers (IEEE) 01.01.2023

Vydáno v IEEE/ACM Transactions on Audio, Speech, and Language Processing (01.01.2023)

Získat plný text

Journal Article

Přidat do oblíbených

Uloženo v:
19

Načítá se…

Localizing Acoustic Energy in Sound Field Synthesis by Directionally Weighted Exterior Radiation Suppression Autor Tomita, Yoshihide, Koyama, Shoichi, Saruwatari, Hiroshi

ISSN: 2379-190X

Vydáno: IEEE 14.04.2024

Vydáno v Proceedings of the ... IEEE International Conference on Acoustics, Speech and Signal Processing (1998) (14.04.2024)
“… The exterior radiation from the loudspeakers in sound field synthesis systems can be problematic in practical situations…”

Získat plný text

Konferenční příspěvek

Přidat do oblíbených

Uloženo v:
20

Načítá se…

Cross-Corpus Multilingual Speech Emotion Recognition: Amharic vs. Other Languages Autor Ephrem Afele Retta, Richard Sutcliffe, Jabar Mahmood, Michael Abebe Berwo, Eiad Almekhlafi, Sajjad Ahmad Khan, Shehzad Ashraf Chaudhry, Mustafa Mhamed, Jun Feng

ISSN: 2076-3417

Vydáno: MDPI AG 22.11.2023

Vydáno v Applied Sciences (22.11.2023)

Získat plný text

Journal Article

Přidat do oblíbených

Uloženo v:

Výsledky vyhledávání - Electrical Engineering and Systems Science - Audio and Speech Processing

Procurement Of Dsp Enabled Evaluation Kit For Speech And Audio Signal Processing At The Department Of Electronics Electrical Communication Engineering Department, Iit

Versatile Time-Frequency Representations Realized by Convex Penalty on Magnitude Spectrogram Autor Keidai Arai, Koki Yamada, Kohei Yatabe

Expression-Preserving Face Frontalization Improves Visually Assisted Speech Processing Autor Zhiqi Kang, Mostafa Sadeghi, Radu Horaud, Xavier Alameda-Pineda

Generalized Domain Adaptation Framework for Parametric Back-End in Speaker Recognition Autor Qiongqiong Wang, Koji Okabe, Kong Aik Lee, Takafumi Koshinaka

Investigation of Japanese PnG BERT Language Model in Text-to-Speech Synthesis for Pitch Accent Language Autor Yusuke Yasuda, Tomoki Toda

Learning and controlling the source-filter representation of speech with a variational autoencoder Autor Sadok, Samir, Leglaive, Simon, Girin, Laurent, Alameda-Pineda, Xavier, Seguier, Renaud

CASA-based speaker identification using cascaded GMM-CNN classifier in noisy and emotional talking conditions Autor Nawel Nemmour, Keikichi Hirose, Shibani Hamsa, Ismail Shahin, Ali Bou Nassif

GEDI: Gammachirp envelope distortion index for predicting intelligibility of enhanced speech Autor Shoko Araki, Keisuke Kinoshita, Katsuhiko Yamamoto, Toshio Irino, Tomohiro Nakatani

PeriodGrad: Towards Pitch-Controllable Neural Vocoder Based on a Diffusion Probabilistic Model Autor Hono, Yukiya, Hashimoto, Kei, Nankaku, Yoshihiko, Tokuda, Keiichi

MOS-FAD: Improving Fake Audio Detection Via Automatic Mean Opinion Score Prediction Autor Zhou, Wangjin, Yang, Zhengdong, Chu, Chenhui, Li, Sheng, Dabre, Raj, Zhao, Yi, Tatsuya, Kawahara

ELP-Adapters: Parameter Efficient Adapter Tuning for Various Speech Processing Tasks Autor Nakamasa Inoue, Shinta Otake, Takumi Hirose, Masanari Ohi, Rei Kawakami

Bass Accompaniment Generation Via Latent Diffusion Autor Pasini, Marco, Grachten, Maarten, Lattner, Stefan

RISC: A Corpus for Shout Type Classification and Shout Intensity Prediction Autor Takahiro Fukumori, Taito Ishida, Yoichi Yamashita

Data Driven Grapheme-to-Phoneme Representations for a Lexicon-Free Text-to-Speech Autor Garg, Abhinav, Kim, Jiyeon, Khyalia, Sushil, Kim, Chanwoo, Gowda, Dhananjaya

The VoicePrivacy 2022 Challenge: Progress and Perspectives in Voice Anonymisation Autor Michele Panariello, Natalia Tomashenko, Xin Wang, Xiaoxiao Miao, Pierre Champion, Hubert Nourtel, Massimiliano Todisco, Nicholas Evans, Emmanuel Vincent, Junichi Yamagishi

FastMVAE2: On Improving and Accelerating the Fast Variational Autoencoder-Based Source Separation Algorithm for Determined Mixtures Autor Li Li, Hirokazu Kameoka, Shoji Makino

Decoupling Speaker-Independent Emotions for Voice Conversion via Source-Filter Networks Autor Zhaojie Luo, Shoufeng Lin, Rui Liu, Jun Baba, Yuichiro Yoshikawa, Hiroshi Ishiguro

Localizing Acoustic Energy in Sound Field Synthesis by Directionally Weighted Exterior Radiation Suppression Autor Tomita, Yoshihide, Koyama, Shoichi, Saruwatari, Hiroshi

Cross-Corpus Multilingual Speech Emotion Recognition: Amharic vs. Other Languages Autor Ephrem Afele Retta, Richard Sutcliffe, Jabar Mahmood, Michael Abebe Berwo, Eiad Almekhlafi, Sajjad Ahmad Khan, Shehzad Ashraf Chaudhry, Mustafa Mhamed, Jun Feng

Vyhledávací nástroje:

Upřesnit hledání

Médium

Předmětová oblast

Téma

Jazyk

Rok vydání