AUTOMATIC IDENTIFICATION OF MUSICAL INSTRUMENTS

Saved in:
Bibliographic Details
Title: AUTOMATIC IDENTIFICATION OF MUSICAL INSTRUMENTS
Source: Bulletin of the National Technical University "KhPI". Series: Mathematical modeling in engineering and technologies; No. 2(9) (2025): Bulletin of the National Technical University "KhPI". Series: Mathematical modeling in engineering and technologies; 62-69
Вестник Национального технического университета "ХПИ". Серия: Математическое моделирование в технике и технологиях; № 2(9) (2025): Вісник Національного технічного університету «ХПІ». Серія: Математичне моделювання в техніці та технологіях; 62-69
Вісник Національного технічного університету «ХПІ». Серія: Математичне моделювання в техніці та технологіях; № 2(9) (2025): Вісник Національного технічного університету «ХПІ». Серія: Математичне моделювання в техніці та технологіях; 62-69
Publisher Information: National Technical University "Kharkiv Polytechnic Institute", 2025.
Publication Year: 2025
Subject Terms: Support Vector Machine, Approximate Nearest Neighbor, обробка аудіо, перетворення Фур'є, кепстральні коефіцієнти Mel-Frequency, аналіз сигналів, машинне навчання, audio processing, spectral features, signal analysis, метод опорних векторів, метод найближчого сусіда, machine learning, Mel-Frequency Cepstral Coefficients, Fourier transform, спектральні характеристики
Description: У цій статті досліджується застосування перетворення Фур’є для автоматичного розпізнавання музичних інструментів в аудіозаписах. Зізростанням складності музичних композицій та потребою в ефективній класифікації аудіо дослідження зосереджується на вилученні детальних спектральних характеристик із звукових сигналів за допомогою швидкого перетворення Фур’є (FFT). Ці характеристики включають спектральний центроїд, ширину смуги пропускання, спад, швидкість перетину нуля та кепстральні коефіцієнти Mel-Frequency (MFCC), які представляють частотні характеристики різних інструментів. Вилучені характеристики обробляються та використовуються для навчання моделей машинного навчання. Зокрема, у статті оцінюється продуктивність двох алгоритмів класифікації: методу апроксимації найближчого сусіда (ANN) та методу опорних векторів (SVM). Моделі навчаються на наборі даних коротких записів на одному інструменті та тестуються на зразках зі змішаних інструментів для оцінки можливостей узагальнення. Експериментальні результати показують, що обидві моделі можуть ефективно класифікувати інструменти з високою точністю – понад 96 % у контрольованих середовищах. Однак точність знижується у складних поліфонічних записах через перекриття частот. У дослідженні також підкреслюється роль таких бібліотек як Librosa, Numpy та Scikit-learn для попередньої обробки та навчання моделей. Результати дослідження показують, що хоча запропонований підхід не ідеально підходить для визначення інструментів в оркестрах, він є дуже ефективним у класифікації сольних інструментів і може бути поширений на такі завдання, як розпізнавання жанрів. Майбутні дослідження можуть включати методи глибинного навчання та розділення джерел звуку для покращення продуктивності в поліфонічних умовах.
This paper explores the application of the Fourier Transform for automatic musical instrument recognition in audio recordings. With the increasingcomplexity of musical compositions and the need for efficient audio classification, the study focuses on extracting detailed spectral features fromsound signals using the Fast Fourier Transform (FFT). These features include spectral centroid, bandwidth, roll-off, zero-crossing rate, and Mel-Frequency Cepstral Coefficients (MFCCs), which represent the frequency-based characteristics of different instruments. The extracted features are processed and used to train machine learning models. Specifically, the paper evaluates the performance of two classification algorithms: Approximate Nearest Neighbor (ANN) and Support Vector Machine (SVM). The models are trained on a dataset of short mono-instrument recordings and tested on mixed-instrument samples to assess generalization capabilities. The experimental results demonstrate that both models can effectively classify instruments with high accuracy – over 96 % in controlled environments. However, the accuracy decreases in complex polyphonic recordings due to overlapping frequencies. The study also highlights the role of libraries such as Librosa, Numpy, and Scikit-learn for preprocessing and model training. The findings suggest that while the proposed approach is not ideal for overlapping instruments in orchestras, it is highly effective in solo instrument classification and can be extended to tasks like genre recognition. Future research could include deep learning techniques and sound source separation to improve performance in polyphonic settings.
Document Type: Article
File Description: application/pdf
Language: Ukrainian
ISSN: 2222-0631
Access URL: http://mmtt.khpi.edu.ua/article/view/341129
Accession Number: edsair.scientific.p..c4e03b6cb26f260920e07d3e4510bd93
Database: OpenAIRE
Description
Abstract:У цій статті досліджується застосування перетворення Фур’є для автоматичного розпізнавання музичних інструментів в аудіозаписах. Зізростанням складності музичних композицій та потребою в ефективній класифікації аудіо дослідження зосереджується на вилученні детальних спектральних характеристик із звукових сигналів за допомогою швидкого перетворення Фур’є (FFT). Ці характеристики включають спектральний центроїд, ширину смуги пропускання, спад, швидкість перетину нуля та кепстральні коефіцієнти Mel-Frequency (MFCC), які представляють частотні характеристики різних інструментів. Вилучені характеристики обробляються та використовуються для навчання моделей машинного навчання. Зокрема, у статті оцінюється продуктивність двох алгоритмів класифікації: методу апроксимації найближчого сусіда (ANN) та методу опорних векторів (SVM). Моделі навчаються на наборі даних коротких записів на одному інструменті та тестуються на зразках зі змішаних інструментів для оцінки можливостей узагальнення. Експериментальні результати показують, що обидві моделі можуть ефективно класифікувати інструменти з високою точністю – понад 96 % у контрольованих середовищах. Однак точність знижується у складних поліфонічних записах через перекриття частот. У дослідженні також підкреслюється роль таких бібліотек як Librosa, Numpy та Scikit-learn для попередньої обробки та навчання моделей. Результати дослідження показують, що хоча запропонований підхід не ідеально підходить для визначення інструментів в оркестрах, він є дуже ефективним у класифікації сольних інструментів і може бути поширений на такі завдання, як розпізнавання жанрів. Майбутні дослідження можуть включати методи глибинного навчання та розділення джерел звуку для покращення продуктивності в поліфонічних умовах.<br />This paper explores the application of the Fourier Transform for automatic musical instrument recognition in audio recordings. With the increasingcomplexity of musical compositions and the need for efficient audio classification, the study focuses on extracting detailed spectral features fromsound signals using the Fast Fourier Transform (FFT). These features include spectral centroid, bandwidth, roll-off, zero-crossing rate, and Mel-Frequency Cepstral Coefficients (MFCCs), which represent the frequency-based characteristics of different instruments. The extracted features are processed and used to train machine learning models. Specifically, the paper evaluates the performance of two classification algorithms: Approximate Nearest Neighbor (ANN) and Support Vector Machine (SVM). The models are trained on a dataset of short mono-instrument recordings and tested on mixed-instrument samples to assess generalization capabilities. The experimental results demonstrate that both models can effectively classify instruments with high accuracy – over 96 % in controlled environments. However, the accuracy decreases in complex polyphonic recordings due to overlapping frequencies. The study also highlights the role of libraries such as Librosa, Numpy, and Scikit-learn for preprocessing and model training. The findings suggest that while the proposed approach is not ideal for overlapping instruments in orchestras, it is highly effective in solo instrument classification and can be extended to tasks like genre recognition. Future research could include deep learning techniques and sound source separation to improve performance in polyphonic settings.
ISSN:22220631