دانش پایه صوتی و اصول کدگذاری

1. مفاهیم اساسی

1) نرخ بیت: نشان می دهد که چند بیت در ثانیه داده های صوتی رمزگذاری شده (فشرده) برای نمایش نیاز دارند و واحد معمولاً kbps است.

2) بلندی و شدت: صفات ذهنی صدا. بلندی صدا نشان می دهد که صدا چگونه بلند می شود. بلندی صدا عمدتاً با شدت صدا متفاوت است ، اما فرکانس نیز تحت تأثیر آن قرار می گیرد. به طور کلی ، اصوات خالص با فرکانس متوسط بهتر از صداهای خالص با فرکانس پایین و با فرکانس بالا هستند.

3) نمونه برداری و میزان نمونه گیری: نمونه برداری به معنای تبدیل سیگنال زمان پیوسته به سیگنال دیجیتال گسسته است. میزان نمونه گیری به تعداد نمونه ای که در ثانیه جمع آوری می شود اشاره دارد.

قانون نمونه برداری Nyquist: هنگامی که میزان نمونه برداری بیشتر یا برابر با 2 برابر بیشترین م componentلفه فرکانس سیگنال پیوسته باشد ، می توان از سیگنال نمونه برداری برای بازسازی کامل سیگنال پیوسته اصلی استفاده کرد.

2. قالب های صوتی رایج

1) قالب WAV یک قالب فایل صوتی است که توسط مایکروسافت ساخته شده است ، همچنین فایل صدای موج نامیده می شود. این اولین فرمت صوتی دیجیتال است که به طور گسترده توسط پلتفرم ویندوز و برنامه های آن پشتیبانی می شود و میزان فشرده سازی کمی دارد.

2) MIDI مخفف Musical Instrument Digital Interface است که به عنوان Musical Instrument Digital Interface نیز شناخته می شود ، که یک استاندارد بین المللی یکپارچه برای موسیقی دیجیتال / آلات موسیقی مصنوعی الکترونیکی است. این روش نحوه مبادله سیگنال های موسیقی توسط برنامه های موسیقی رایانه ای ، سینتی سایزر دیجیتال و سایر دستگاه های الکترونیکی را مشخص می کند و پروتکل انتقال داده بین کابل ها و سخت افزارها و دستگاه های اتصال ابزار الکترونیکی موسیقی از سازندگان مختلف به رایانه را مشخص می کند و می تواند صدای چندین موسیقی سازها پرونده MIDI فایلی با فرمت MIDI است و برخی از دستورات در پرونده MIDI ذخیره می شوند. این دستورالعمل ها را به کارت صدا ارسال کنید ، و کارت صدا طبق دستورالعمل ها صدا را تلفیق می کند.

3) نام کامل MP3 MPEG-1 Audio Layer 3 است ، که در مشخصات MPEG در سال 1992 ادغام شده است. MP3 می تواند فایل های صوتی دیجیتال را با کیفیت صدای بالا و سرعت نمونه برداری پایین فشرده کند. رایج ترین برنامه

4) MP3Pro توسط شرکت فناوری کدگذاری سوئد ساخته شد که شامل دو فناوری عمده است: یکی فناوری رمزگشایی منحصر به فرد از شرکت فناوری کدگذاری و دیگری ادغام دارنده حق ثبت اختراع MP3 شرکت چندرسانه ای Thomson فرانسه و Fraunhofer آلمانی توسط انجمن مدار. MP3Pro می تواند کیفیت اصلی موسیقی MP3 MPXNUMX را بدون تغییر اساساً اندازه پرونده بهبود بخشد. این دستگاه می تواند کیفیت صدا را قبل از فشرده سازی در بیشترین حالت در حالی که فشرده سازی فایل های صوتی را با سرعت بیت کمتری انجام می دهد ، حفظ کند.

5) MP3Pro توسط شرکت فناوری کدگذاری سوئد ساخته شد که شامل دو فناوری عمده است: یکی فناوری رمزگشایی منحصر به فرد از شرکت فناوری کدگذاری و دیگری ادغام دارنده حق ثبت اختراع MP3 شرکت چندرسانه ای Thomson فرانسه و Fraunhofer آلمانی توسط انجمن مدار. MP3Pro می تواند کیفیت اصلی موسیقی MP3 MPXNUMX را بدون تغییر اساساً اندازه پرونده بهبود بخشد. این دستگاه می تواند کیفیت صدا را قبل از فشرده سازی در بیشترین حالت در حالی که فشرده سازی فایل های صوتی را با سرعت بیت کمتری انجام می دهد ، حفظ کند.

6) WMA (Windows Media Audio) شاهکار مایکروسافت در زمینه صوتی و تصویری اینترنت است. قالب WMA با کاهش ترافیک داده ها اما حفظ کیفیت صدا به میزان فشرده سازی بالاتری دست می یابد. میزان فشرده سازی به طور کلی می تواند به 1:18 برسد. علاوه بر این ، WMA همچنین می تواند از طریق کپی رایت از طریق DRM (مدیریت حقوق دیجیتال) محافظت کند.

7) RealAudio یک قالب فایل است که توسط Real Networks راه اندازی شده است. بزرگترین ویژگی این است که می تواند اطلاعات صوتی را در زمان واقعی انتقال دهد ، به خصوص هنگامی که سرعت شبکه کم است ، هنوز هم می تواند داده ها را به صورت روان انتقال دهد ، بنابراین RealAudio عمدتا برای پخش آنلاین شبکه در شبکه مناسب است. فرمت های فایل RealAudio فعلی عمدتا شامل RA (RealAudio) ، RM (RealMedia ، RealAudio G2) ، RMX (RealAudio Secured) و غیره است. وجه اشتراک این پرونده ها این است که کیفیت صدا با تفاوت در پهنای باند شبکه تغییر می کند. با این فرض که اکثر مردم صدای صاف می شنوند ، شنوندگان با پهنای باند گسترده تر می توانند کیفیت صدای بهتری داشته باشند.

8) Audible دارای چهار قالب مختلف است: Audible1 ، 2 ، 3 ، 4. وب سایت Audible.com عمدتا کتاب های صوتی را در اینترنت می فروشد و از کالاها و پرونده هایی که آنها می فروشند از طریق یکی از چهار قالب صوتی اختصاصی Audible.com محافظت می کند. . هر قالب عمدتا منبع صوتی و دستگاه شنود مورد استفاده را در نظر می گیرد. در قالب های 1 ، 2 و 3 از سطوح مختلف فشرده سازی صدا استفاده می شود ، در حالی که در قالب 4 از میزان نمونه برداری پایین تر و همان روش رمزگشایی MP3 استفاده می شود. صدای حاصل از آن واضح تر است و می توان با کارآیی بیشتری از اینترنت بارگیری کرد. Audible از ابزار پخش دسک تاپ خود استفاده می کند که Audible Manager است. با استفاده از این پخش کننده ، می توانید فایلهای قالب Audible را که در رایانه شخصی ذخیره شده یا به یک پخش کننده قابل حمل منتقل شده اند ، پخش کنید.

9) AAC در واقع مخفف Advanced Audio Coding است. AAC یک قالب صوتی است که به طور مشترک توسط Fraunhofer IIS-A ، Dolby و AT&T ساخته شده است. این بخشی از مشخصات MPEG-2 است. الگوریتم مورد استفاده توسط AAC با MP3 متفاوت است. AAC توابع دیگر را برای بهبود کارایی کدگذاری ترکیب می کند. الگوریتم صوتی AAC در قابلیت فشرده سازی بسیار فراتر از برخی الگوریتم های فشرده سازی قبلی (مانند MP3 و غیره) است. همچنین از حداکثر 48 آهنگ صوتی ، 15 آهنگ صوتی با فرکانس پایین ، نرخ نمونه برداری و نرخ بیت بیشتر ، سازگاری چند زبانه و بازده رمزگشایی بالاتر پشتیبانی می کند. به طور خلاصه ، AAC می تواند کیفیت صدای بهتری را با این فرض که 30٪ کوچکتر از فایل های MP3 است ، فراهم کند.

10) Ogg Vorbis یک قالب فشرده سازی صوتی جدید ، شبیه به قالب های موسیقی موجود مانند MP3 است. اما یک تفاوت این است که کاملا رایگان ، باز و بدون محدودیت ثبت اختراع است. Vorbis نام این سازوکار فشرده سازی صدا است و Ogg نام پروژه ای است که قصد دارد یک سیستم چندرسانه ای کاملاً باز را طراحی کند. VORBIS همچنین فشرده سازی با ضرر است ، اما از مدل های صوتی پیشرفته تری برای کاهش تلفات استفاده می کند. بنابراین ، کدگذاری OGG با همان نرخ بیت بهتر از MP3 است.

11) APE یک قالب صوتی فشرده بدون ضرر است ، با این فرض که کیفیت صدا کاهش نمی یابد ، اندازه به نصف فایل WAV با فرمت بدون فشرده سازی سنتی فشرده می شود.

12) FLAC مخفف Free Lossless Audio Codec ، مجموعه ای از کدهای فشرده سازی بدون فقدان صوتی رایگان شناخته شده است که با فشرده سازی بدون فقدان مشخص می شود.

3. اصل اساسی کدگذاری صوتی

کدگذاری گفتار به کاهش پهنای باند کانال مورد نیاز برای انتقال و حفظ کیفیت بالای گفتار ورودی اختصاص دارد.

هدف از کدگذاری گفتار ، طراحی رمزگذار با پیچیدگی کم برای دستیابی به انتقال داده با کیفیت بالا در کمترین نرخ بیت ممکن است.

1) منحنی آستانه قطع: آستانه ای که در آن گوش انسان فقط در یک محیط ساکت می تواند صدا را در فرکانس های مختلف بشنود.

2) باند فرکانس بحرانی

از آنجا که گوش انسان برای فرکانسهای مختلف وضوح مختلفی دارد ، MPEG1 / Audio دامنه فرکانس قابل درک را در 22 کیلو هرتز به باند فرکانسی بحرانی 23 ~ 26 با توجه به لایه های مختلف کدگذاری و فرکانسهای مختلف نمونه تقسیم می کند. شکل زیر فرکانس مرکز و پهنای باند باند فرکانس بحرانی ایده آل را نشان می دهد. همانطور که در شکل مشاهده می شود ، گوش انسان دارای تفکیک بهتر فرکانس پایین است

3) اثر نقاب گذاری در دامنه فرکانس: سیگنالی با دامنه بیشتر سیگنالی با فرکانس مشابه و دامنه کوچکتر را پوشانده ، همانطور که در شکل زیر نشان داده شده است:

4) جلوه ماسک گذاری در حوزه زمان: در مدت زمان کوتاهی ، اگر دو صدا ظاهر شود ، صدا با SPL بزرگتر (سطح فشار صدا) صدا را با SPL کوچکتر پوشش می دهد. اثر پوشاندن دامنه زمان به تقسیم رو به جلو (پیش پوشاندن) و پوشش پشت (بعد از پوشاندن) تقسیم می شود. زمان پس از نقاب زدن طولانی تر خواهد بود ، حدود 10 برابر قبل از نقاب زدن.

اثر پوشاندن دامنه زمان به از بین بردن پیش اکو کمک می کند.

4. ابزار اصلی کدگذاری

1) کوانتایزر و کوانتایزر

كوانتيزاسيون و كوانتيزر: كوانتيزاسيون يك سيگنال پيوسته را در زمان گسسته به يك سيگنال گسسته در زمان گسسته تبديل مي كند. كوانتيزرهاي متداول عبارتند از: كوانتيزر يكنواخت ، كوانتيزر لگاريتمي و كوانتيزر غير يكنواخت. هدفی که توسط فرآیند کوانتیزه سازی دنبال می شود ، به حداقل رساندن خطای کوانتیزاسیون و به حداقل رساندن پیچیدگی کوانتایزر است (این دو به خودی خود تناقض دارند).

(A) Quanttizer یکنواخت: ساده ترین ، بدترین عملکرد ، فقط برای صدای تلفن مناسب است.

(ب) كوانتيزر لگاريتمي: از كوانتيزر يكنواخت پيچيده تر و اجراي آن آسان است و عملكرد آن از كوانتيزر يكنواخت بهتر است.

(ج) كوانتيزر غير يكنواخت: با توجه به توزيع سيگنال ، كوانتيزر را طراحي كنيد. کمی سازی دقیق در جاهایی انجام می شود که سیگنال متراکم است و در جایی که سیگنال پراکنده باشد کمی سازی خشن انجام می شود.

2) رمزگذار صوتی

رمزگذار گفتار سه نوع دارد: (الف) رمزگذار شکل موج. (ب) Vocoder ؛ (ج) رمزگذار ترکیبی.

رمزگذار شکل موج قصد دارد یک شکل موج آنالوگ از جمله صفحه نویز پس زمینه را ایجاد کند. با کار بر روی تمام سیگنال های ورودی ، نمونه های با کیفیت تولید می کند و یک بیت ریت بالا مصرف می کند. صدای خواننده شکل موج اصلی را ایجاد نمی کند. این مجموعه رمزگذارها مجموعه ای از پارامترها را استخراج می کنند ، که برای استخراج مدل تولید صدا به انتهای گیرنده ارسال می شوند. کیفیت صدای خواننده به اندازه کافی خوب نیست. رمزگذار ترکیبی ، که از مزایای رمزگذار و صدا ساز شکل موج استفاده می کند.

2.1 رمزگذار شکل موج

طراحی رمزگذار شکل موج اغلب مستقل از سیگنال است. بنابراین برای کدگذاری سیگنال های مختلف مناسب است و فقط به گفتار محدود نمی شود.

1) کدگذاری دامنه زمان

الف) PCM: مدولاسیون کد پالس ، ساده ترین روش رمزگذاری است. این فقط گسسته سازی و کمی سازی سیگنال است و از لگاریتمیزه سازی اغلب استفاده می شود.

ب) DPCM: مدولاسیون کد پالس دیفرانسیل ، که فقط تفاوت بین نمونه ها را رمزگذاری می کند. از یک یا چند نمونه قبلی برای پیش بینی مقدار نمونه فعلی استفاده می شود. هرچه نمونه های بیشتری برای پیش بینی استفاده شود ، مقدار پیش بینی شده دقیق تر است. تفاوت بین مقدار واقعی و مقدار پیش بینی شده را باقیمانده می گویند ، که هدف رمزگذاری است.

ج) ADPCM: تعدیل کد پالس دیفرانسیل تطبیقی ، کد پالس دیفرانسیل تطبیقی. یعنی بر اساس DPCM ، کووانتیر و پیش بینی با توجه به تغییرات سیگنال به طور مناسب تنظیم می شوند ، به طوری که مقدار پیش بینی شده به سیگنال واقعی نزدیکتر است ، پس مانده آن کوچکتر است و بازده فشرده سازی بالاتر است.

(2) کدگذاری دامنه فرکانس

کدگذاری دامنه فرکانس تجزیه سیگنال به مجموعه ای از عناصر فرکانس مختلف و انجام کدگذاری مستقل است.

الف) کدگذاری زیر باند: کدگذاری زیر باند ساده ترین روش کدگذاری دامنه فرکانس است. این یک فناوری است که سیگنال اصلی را از دامنه زمان به دامنه فرکانس تبدیل می کند ، سپس آن را به چندین باند فرعی تقسیم می کند و به ترتیب کدگذاری دیجیتالی را روی آنها انجام می دهد. از یک گروه فیلتر باند گذر (BPF) برای تقسیم سیگنال اصلی به چندین باند فرعی (به عنوان مثال متر) (که به آنها باند فرعی گفته می شود) استفاده می کند. هر زیر باند را از ویژگی های مدولاسیون معادل مدولاسیون دامنه یک طرفه عبور دهید ، هر زیر باند را به فرکانس نزدیک صفر منتقل کنید ، به ترتیب از BPF عبور دهید (در کل متر) و سپس هر زیر باند را با سرعت تعیین شده منتقل کنید ( Nyquist rate) سیگنال خروجی باند فرعی نمونه برداری می شود و مقدار نمونه برداری معمولاً به صورت دیجیتالی کد می شود و m رمزگذارهای دیجیتال تنظیم می شود. هر سیگنال رمزگذاری شده دیجیتال را به مولتی پلکسر ارسال کنید و در آخر جریان داده کدگذاری شده زیر باند را خارج کنید.

برای باندهای فرعی مختلف می توان از روش های مختلف کوانتاسیون استفاده کرد و تعداد متفاوتی از بیت ها را با توجه به مدل درک گوش انسان به زیر باندها اختصاص داد.

ب) تبدیل کدگذاری: کدگذاری DCT.

5. صدابردار

کانال صوتی: از حساسیت گوش انسان به فاز استفاده می کند.

خواننده همومورفیک: می تواند سیگنالهای مصنوعی را به طور موثر پردازش کند.

صوتی واژگان: بیشتر اطلاعات سیگنال صوتی روی موقعیت و پهنای باند ماده سازنده قرار دارد.

پیشخوان پیش بینی کننده خطی: متداول ترین رمز خواننده.

6. رمزگذار ترکیبی

رمزگذار شکل موج سعی می کند شکل موج سیگنال رمزگذاری شده را حفظ کند و می تواند گفتاری با کیفیت بالا را با سرعت بیت متوسط (32 کیلوبیت بر ثانیه) ارائه دهد ، اما نمی توان آن را در موارد کم سرعت بکار برد. خواننده صدا تلاش می کند سیگنالی را تولید کند که از لحاظ شنیداری شبیه سیگنال رمزگذاری شده باشد و می تواند گفتار قابل فهم را با نرخ بیت پایین ارائه دهد ، اما گفتار حاصل غیر طبیعی به نظر می رسد. رمزگذار ترکیبی مزایای هر دو را ترکیب می کند.

RELP: بر اساس پیش بینی خطی ، پس مانده رمزگذاری می شود. مکانیسم این است: فقط قسمت کوچکی از باقیمانده ها را منتقل کنید و تمام مانده ها را در انتهای دریافت بازسازی کنید (باقیمانده های باند پایه را کپی کنید).

MPC: برنامه نویسی چند پالسی ، که همبستگی باقیمانده ها را از بین می برد و برای جبران طبقه بندی ساده صدای واکر در صداها و بدون صدا بدون نقص حالت های میانی استفاده می شود.

CELP: پیش بینی خطی هیجان زده كتاب ، كه برای تقریب بهتر سیگنال اصلی از پیش بینی دستگاه صوتی و آبشار پیش بینی گرایش استفاده می كند.

MBE: تحریک چند باند ، هدف این است که از تعداد زیادی محاسبات CELP جلوگیری کنید ، تا کیفیت بالاتری نسبت به صوتی را بدست آورید.