پردازش صوتی - 1 دانش اساسی

به امواج صوتی با فرکانس صوتی بین 20 هرتز تا 20 کیلوهرتز گفته می شود که توسط گوش انسان شنیده می شود.

اگر کارت صوتی مربوط به آن را به رایانه اضافه کنید - کارت صوتی که ما اغلب می گوییم ، می توانیم همه صداها را ضبط کنیم ، و ویژگی های صوتی صدا مانند سطح صدا را می توان به عنوان پرونده در سخت افزار کامپیوتر ذخیره کرد دیسک برعکس ، ما همچنین می توانیم از یک برنامه صوتی خاص برای بازیابی فایل صوتی ذخیره شده برای بازیابی صدای ضبط شده قبلی استفاده کنیم.

1 قالب فایل صوتی
قالب فایل صوتی به طور خاص به قالب پرونده ذخیره داده های صوتی اشاره دارد. فرمت های مختلفی وجود دارد.

روش کلی بدست آوردن داده های صوتی این است که ولتاژ صوتی را در یک بازه زمانی ثابت نمونه برداری (کمی کنید) و ذخیره نتیجه را با وضوح مشخص انجام می دهیم (به عنوان مثال هر نمونه CDDA 16 بیت یا 2 بایت است). فاصله نمونه گیری می تواند استانداردهای مختلفی داشته باشد. به عنوان مثال ، CDDA 44,100،48,000 بار در ثانیه استفاده می کند. DVD در هر ثانیه 96,000 یا 2،XNUMX بار استفاده می کند. بنابراین ، [میزان نمونه برداری] ، [وضوح] و تعداد [کانال] (به عنوان مثال ، XNUMX کانال برای استریو) پارامترهای اصلی قالب فایل صوتی هستند.

1.1 ضرر و ضرر
با توجه به روند تولید صدای دیجیتال ، کدگذاری صوتی فقط می تواند بی نهایت به سیگنال های طبیعی نزدیک باشد. حداقل فناوری فعلی فقط می تواند این کار را انجام دهد. هر برنامه کدگذاری صوتی دیجیتال ضرر دارد زیرا نمی تواند به طور کامل بازیابی شود. در برنامه های رایانه ای ، بالاترین سطح وفاداری رمزگذاری PCM است ، که به طور گسترده ای برای حفظ مواد و قدردانی از موسیقی استفاده می شود. در سی دی ، دی وی دی و پرونده های WAV رایج ما استفاده می شود. بنابراین ، PCM طبق رمزگذاری تبدیل به یک رمزگذاری بدون ضرر شده است ، زیرا PCM نشان دهنده بهترین سطح وفاداری در صدای دیجیتال است.

دو نوع قالب اصلی فایل صوتی وجود دارد:

قالب های بدون ضرر ، مانند WAV ، PCM ، TTA ، FLAC ، AU ، APE ، TAK ، WavPack (WV)
فرمت های از دست رفته ، مانند MP3 ، Windows Media Audio (WMA) ، Ogg Vorbis (OGG) ، AAC

2 معرفی پارامتر

2.1 میزان نمونه گیری

به تعداد نمونه های صوتی به دست آمده در ثانیه اشاره دارد. صدا در واقع نوعی موج انرژی است ، بنابراین ویژگی های فرکانس و دامنه را نیز دارد. فرکانس مربوط به محور زمان و دامنه مربوط به محور تراز است. موج بی نهایت صاف است و می توان رشته را از نقاط بیشماری تشکیل داد. از آنجا که فضای ذخیره سازی نسبتاً محدود است ، باید از نقاط رشته در طی مراحل رمزگذاری دیجیتال نمونه برداری شود.

فرآیند نمونه گیری برای استخراج مقدار فرکانس یک نقطه خاص است. بدیهی است که هرچه امتیاز بیشتری در یک ثانیه استخراج شود ، اطلاعات فرکانسی بیشتری نیز بدست می آید. به منظور بازیابی شکل موج ، هرچه فرکانس نمونه برداری بالاتر باشد ، کیفیت صدا بهتر است. هرچه مرمت واقعی تر باشد ، در عین حال منابع بیشتری را اشغال می کند. به دلیل وضوح محدود گوش انسان ، فرکانس خیلی زیاد را نمی توان تشخیص داد. از فرکانس نمونه برداری 22050 معمولاً استفاده می شود ، 44100 از قبل کیفیت صدای CD است و نمونه برداری از 48,000 یا 96,000 دیگر برای گوش انسان معنی ندارد. این فیلم مشابه 24 فریم در ثانیه در فیلم ها است. اگر استریو باشد ، نمونه دو برابر می شود و پرونده تقریباً دو برابر می شود.

طبق نظریه نمونه برداری Nyquist ، برای اطمینان از عدم تحریف صدا ، فرکانس نمونه برداری باید در حدود 40kHz باشد. نیازی نیست که بدانیم این قضیه چگونه بوجود آمده است. فقط باید بدانیم که این قضیه به ما می گوید که اگر می خواهیم سیگنالی را به طور دقیق ضبط کنیم ، فرکانس نمونه برداری ما باید بزرگتر یا برابر دو برابر حداکثر فرکانس سیگنال صوتی باشد. به یاد داشته باشید ، این حداکثر فرکانس است.

در زمینه صوتی دیجیتال ، نرخ نمونه گیری معمولاً مورد استفاده قرار می گیرد:

8000 هرتز - میزان نمونه گیری مورد استفاده در تلفن ، که برای گفتار انسان کافی است
سرعت نمونه برداری 11025 هرتز توسط تلفن
نرخ نمونه برداری 22050 هرتز که در پخش رادیویی استفاده می شود
نرخ نمونه برداری 32000 هرتز برای دوربین فیلمبرداری دیجیتال miniDV ، DAT (حالت LP)
44100 هرتز-سی دی صوتی ، همچنین معمولاً به عنوان میزان نمونه گیری برای صوتی MPEG-1 (VCD ، SVCD ، MP3) استفاده می شود
نرخ نمونه برداری 47250 هرتز توسط ضبط کننده های PCM تجاری استفاده می شود
نرخ نمونه برداری 48000 هرتز برای صدای دیجیتال مورد استفاده در miniDV ، تلویزیون دیجیتال ، DVD ، DAT ، فیلم ها و صدای حرفه ای
نرخ نمونه برداری 50000 هرتز توسط ضبط کننده های دیجیتال تجاری استفاده می شود
96000 هرتز یا 192000 هرتز - میزان نمونه گیری مورد استفاده برای DVD-Audio ، برخی از آهنگ های صوتی LPCM DVD ، آهنگ های صوتی BD-ROM (Blu-ray Disc) و HD-DVD (High Definition DVD) آهنگ های صوتی

2.2 تعداد بیت های نمونه برداری
به تعداد بیت های نمونه برداری ، اندازه نمونه یا تعداد بیت های کوانتیزاسیون نیز گفته می شود. این پارامتری است که برای اندازه گیری نوسانات صدا ، یعنی وضوح کارت صدا استفاده می شود یا می توان آن را به عنوان وضوح کارت صدا پردازش شده توسط کارت صدا درک کرد. هرچه مقدار بزرگتر باشد ، وضوح تصویر بالاتر است و صدای ضبط شده و پخش شده واقع بینانه تر است. بیت کارت صدا به ارقام دودویی سیگنال صدای دیجیتال است که کارت صدا هنگام جمع آوری و پخش فایل های صوتی استفاده می کند. کمی کارت صدا به طور عینی نشان دهنده دقت توصیف سیگنال صدای دیجیتال در مورد سیگنال صدای ورودی است. کارت های صدای معمول عمدتا 8 بیتی و 16 بیتی هستند. امروزه همه محصولات اصلی موجود در بازار دارای کارت های صدا 16 بیتی و بالاتر هستند.

هر داده نمونه برداری دامنه را ثبت می کند و دقت نمونه گیری به تعداد بیت های نمونه بستگی دارد:

1 بایت (یعنی 8 بیت) فقط می تواند 256 عدد را ثبت کند ، به این معنی که دامنه را فقط می توان به 256 سطح تقسیم کرد.
2 بایت (یعنی 16 بیت) می تواند به کوچکی 65536 باشد که در حال حاضر یک استاندارد CD است.
4 بایت (یعنی 32 بیت) می تواند دامنه را به 4294967296 تقسیم کند ، که واقعاً غیرضروری است.
2.3 تعداد کانال ها
یعنی تعداد کانال های صوتی. مونو و استریو مشترک (دو کاناله) اکنون به چهار صدا فراگیر (چهار کانال) و 5.1 کانال تبدیل شده اند.

2.3.1 مونو
مونو نوعی تولید مثل صدا نسبتاً بدوی است و کارتهای صوتی اولیه از آن بیشتر استفاده می کنند. صدای مونو را فقط می توان با استفاده از یک بلندگو به صدا درآورد و برخی از آنها نیز به دو بلندگو پردازش می شوند تا از کانال صوتی یکسان خارج شوند. وقتی اطلاعات تک صدایی از طریق دو بلندگو پخش می شود ، می توانیم به وضوح احساس کنیم که صدا از دو بلندگو است. تعیین محل خاص منبع صوتی که از وسط بلندگو به گوش ما منتقل می شود غیرممکن است.

2.3.2 استریو
کانال های Binaural دارای دو کانال صدا هستند. اصل این است که افراد وقتی صدایی را می شنوند ، می توانند موقعیت خاص منبع صدا را بر اساس اختلاف فاز بین گوش های چپ و راست قضاوت کنند. صدا در طی فرایند ضبط به دو کانال مستقل اختصاص می یابد ، تا به یک اثر محلی سازی صدای خوب دست یابد. این روش به ویژه در ارزیابی موسیقی بسیار مفید است. شنونده می تواند جهتی را که از طریق آن سازهای مختلف بوجود می آیند به وضوح تشخیص دهد ، این باعث می شود موسیقی خیالی تر و به تجربه در محل نزدیک شود.

در حال حاضر دو صدا بیشترین استفاده را دارند. در کارائوکه ، یکی برای پخش موسیقی و دیگری برای صدای خواننده است. در VCD ، یکی در حال دوبله به زبان ماندارین و دیگری در حال دوبله به کانتونی است.

2.3.3 فراگیر چهار رنگ
فراگیر چهار کاناله چهار نقطه صدا ، جلو چپ ، جلو راست ، عقب چپ و عقب راست را تعریف می کند و مخاطب با این موارد احاطه شده است. همچنین توصیه می شود برای تقویت پردازش پخش سیگنالهای با فرکانس پایین ، ساب ووفر اضافه کنید (این دلیل محبوبیت امروزی سیستم های بلندگو 4.1 کانال است). تا آنجا که به اثر کلی مربوط می شود ، سیستم چهار کاناله می تواند شنوندگان را از چند جهت مختلف به صدا در آورد ، می تواند تجربه شنیداری را از حضور در محیط های مختلف بدست آورد و تجربه ای کاملاً جدید به کاربران بدهد. امروزه ، فناوری چهار کاناله به طور گسترده ای در طراحی کارت های مختلف صوتی میان رده و پیشرفته ادغام شده و به روند اصلی توسعه آینده تبدیل شده است.

کانال 2.3.4 5.1
5.1 کانال به طور گسترده ای در تئاترهای مختلف سنتی و سینماهای خانگی مورد استفاده قرار گرفته است. برخی از معروف ترین فرمت های فشرده سازی ضبط صدا مانند Dolby AC-3 (Dolby Digital) ، DTS و غیره براساس سیستم صوتی 5.1 ساخته شده اند. کانال ".1" یک کانال ساب ووفر مخصوص طراحی شده است که می تواند ساب ووفرهایی با دامنه پاسخ فرکانسی 20 تا 120 هرتز تولید کند. در واقع ، سیستم صوتی 5.1 از 4.1 فراگیر می آید ، تفاوت در این است که یک واحد مرکزی را اضافه می کند. این واحد مرکزی وظیفه انتقال سیگنال صوتی زیر 80 هرتز را دارد ، که برای تقویت صدای انسان هنگام تماشای فیلم و تمرکز گفتگو در وسط کل زمینه صدا برای کمک به تأثیر کلی مفید است.

در حال حاضر ، بسیاری از پخش کننده های موسیقی آنلاین ، مانند QQ Music ، موسیقی 5.1 کانال را برای گوش دادن و بارگیری آزمایشی فراهم کرده اند.

2.4 قاب
مفهوم فریم های صوتی به اندازه فریم های ویدیویی واضح نیست. تقریباً همه فرمت های رمزگذاری ویدئو به راحتی می توانند یک فریم را به عنوان یک تصویر رمزگذاری شده تصور کنند. با این حال ، قاب صوتی مربوط به قالب رمزگذاری است که توسط هر استاندارد رمزگذاری پیاده سازی می شود.

به عنوان مثال ، در مورد PCM (داده های صوتی بدون رمز) ، اصلاً به مفهوم فریم نیاز ندارد و می توان آن را با توجه به میزان نمونه برداری و دقت نمونه برداری ، پخش کرد. به عنوان مثال ، برای صدای دوتایی با نرخ نمونه برداری 44.1kHZ و دقت نمونه گیری 16 بیت ، می توانید نرخ بیت 44100162bps را محاسبه کنید و داده های صوتی در ثانیه 44100162/8 بایت ثابت است.

قاب amr نسبتاً ساده است. این شرط می گوید که هر 20 میلی ثانیه صدا یک فریم است و هر فریم صوتی مستقل است و می توان از الگوریتم های رمزگذاری مختلف و پارامترهای رمزگذاری مختلف استفاده کرد.

فریم mp3 کمی پیچیده تر است و شامل اطلاعات بیشتری مانند نرخ نمونه برداری ، نرخ بیت و پارامترهای مختلف است.

چرخه 2.5
تعداد فریمهای مورد نیاز یک دستگاه صوتی برای پردازش همزمان ، و دسترسی داده های دستگاه صوتی و ذخیره سازی داده های صوتی همه براساس این واحد است.

2.6 حالت مخلوط شده
روش ذخیره سیگنال صوتی دیجیتال. داده ها در فریم های مداوم ذخیره می شوند ، یعنی ابتدا نمونه های کانال سمت چپ و کانال های راست قاب 1 ضبط می شوند و سپس ضبط قاب 2 آغاز می شود.

2.7 حالت غیر متقاطع
ابتدا نمونه های کانال سمت چپ همه فریم ها را در یک دوره ضبط کنید و سپس همه نمونه های کانال سمت راست را ضبط کنید.

2.8 نرخ بیت (نرخ بیت)
نرخ بیت نرخ بیت نیز نامیده می شود ، که به مقدار داده پخش شده توسط موسیقی در هر ثانیه اشاره دارد. واحد با بیت بیان می شود که بیت باینری است. bps نرخ بیت است. b بیت (بیت) ، s دوم (دوم) ، p هر (به ازای) ، یک بایت معادل 8 بیت باینری است. به عبارت دیگر ، اندازه پرونده آهنگ 4 دقیقه ای 128 بیت بر ثانیه به این صورت محاسبه می شود (128/8) 460 = 3840kB = 3.8MB ، 1B (بایت) = 8b (بیت) ، به طور کلی mp3 در حدود 128 بیت مفید است سرعت ، و احتمالاً اندازه آن در حدود 3-4 BM است.

در برنامه های رایانه ای ، بالاترین سطح وفاداری رمزگذاری PCM است که بسیار مورد استفاده قرار می گیرد برای حفظ مواد و قدردانی از موسیقی. CD ، DVD و پرونده های WAV مشترک ما همه استفاده می شود. بنابراین ، PCM طبق رمزگذاری تبدیل به یک رمزگذاری بدون ضرر شده است ، زیرا PCM نشان دهنده بهترین سطح وفاداری در صدای دیجیتال است. این بدان معنا نیست که PCM می تواند از وفاداری مطلق سیگنال اطمینان حاصل کند. PCM فقط می تواند حداکثر مجاورت بی نهایت را بدست آورد.

محاسبه نرخ بیت جریان صوتی PCM کار بسیار ساده ای است ، مقدار نرخ نمونه برداری value مقدار اندازه نمونه برداری number تعداد کانال bps. یک پرونده WAV با نرخ نمونه برداری 44.1KHz ، اندازه نمونه 16bit و رمزگذاری PCM دو کاناله ، سرعت داده آن 44.1K × 16 × 2 = 1411.2Kbps است. سی دی صوتی رایج ما از رمزگذاری PCM استفاده می کند و ظرفیت یک CD تنها می تواند 72 دقیقه از اطلاعات موسیقی را در خود جای دهد.

یک سیگنال صوتی رمزگذاری شده دو کاناله PCM در 176.4 ثانیه به 1KB فضا و در 10.34 دقیقه به حدود 1M فضای نیاز دارد. این مورد برای اکثر کاربران ، خصوصاً کسانی که دوست دارند از طریق رایانه به موسیقی گوش دهند ، غیر قابل قبول است. اشغال دیسک ، فقط دو روش وجود دارد ، شاخص کوچک سازی نمونه یا فشرده سازی. کاهش شاخص نمونه گیری توصیه نمی شود ، بنابراین متخصصان طرح های مختلف فشرده سازی را ایجاد کرده اند. اصلی ترین آنها DPCM ، ADPCM و معروف ترین آنها MP3 است. بنابراین ، میزان کد پس از فشرده سازی داده ها بسیار کمتر از کد اصلی است.

2.9 محاسبه مثال
به عنوان مثال ، طول پرونده "Windows XP startup.wav" 424,644،22050 بایت است که در قالب "16HZ / XNUMXbit / stereo" است.

سپس سرعت انتقال آن در هر ثانیه (نرخ بیت ، نرخ بیت ، سرعت نمونه برداری نیز نامیده می شود) 22050162 = 705600 (bps) ، تبدیل شده به واحد بایت 705600/8 = 88200 (بایت در ثانیه) ، زمان پخش: 424644 (کل بایت) / 88200 (بایت در ثانیه) 4.8145578 ≈ (ثانیه).

اما این به اندازه کافی دقیق نیست. پرونده WAVE (* .wav) در قالب استاندارد PCM حداقل 42 بایت اطلاعات هدر دارد که باید هنگام محاسبه زمان پخش حذف شود ، بنابراین: (424644-42) / (22050162/8) 4.8140816 XNUMX ≈ ( ثانیه) این دقیق تر است

3 رمزگذاری صوتی PCM
PCM مخفف Pulse Code Modulation است. در فرآیند PCM ، سیگنال آنالوگ ورودی نمونه برداری ، کوانتیزه و کدگذاری می شود و عدد کد شده باینری دامنه سیگنال آنالوگ را نشان می دهد. سپس انتهای دریافت ، این کدها را به سیگنال آنالوگ اصلی باز می گرداند. یعنی تبدیل A / D صدای دیجیتال شامل سه فرایند است: نمونه برداری ، کمی سازی و رمزگذاری.

میزان پذیرش صدای PCM 8kHz است و تعداد بیت های نمونه 8bit است ، بنابراین نرخ کد سیگنال رمزگذاری شده دیجیتال صوتی 8bit × 8kHz = 64kbps = 8KB / s است.

3.1 اصول کدگذاری صوتی
هر کسی که پایه الکترونیکی خاصی داشته باشد ، می داند که سیگنال صوتی جمع آوری شده توسط سنسور یک مقدار آنالوگ است ، اما آنچه ما در روند انتقال واقعی استفاده می کنیم ، یک مقدار دیجیتالی است. و این شامل فرایند تبدیل آنالوگ به دیجیتال است. سیگنال آنالوگ برای تحقق بخشیدن به فناوری دیجیتالی سازی صدا (PCM ، Pulse Coding Modulation) ، باید سه فرآیند یعنی نمونه برداری ، کمی سازی و کدگذاری را طی کند.

فرآیند تبدیل

3.1.1 نمونه گیری
نمونه برداری فرایند استخراج نمونه ها (میزان نمونه برداری) از یک سیگنال آنالوگ با فرکانسی است که بیش از 2 برابر پهنای باند سیگنال باشد (قضیه نمونه برداری Lequist) و تبدیل آن به یک سیگنال نمونه گسسته در محور زمان.
نرخ نمونه برداری: تعداد نمونه های استخراج شده از یک سیگنال پیوسته در ثانیه برای تشکیل سیگنال گسسته ، بیان شده در هرتز (هرتز).

نمونه:
به عنوان مثال ، میزان نمونه گیری سیگنال صوتی 8000 هرتز است.
می توان فهمید که نمونه در شکل فوق مربوط به منحنی تغییر ولتاژ با زمان در شکل 1 ثانیه ، سپس پایین تر 1 2 3… 10 است ، زیرا باید 1-8000 نقطه وجود داشته باشد ، یعنی 1 دوم به 8000 قسمت تقسیم می شود و سپس آنها را به نوبه خود خارج می کنیم مقدار ولتاژ مربوط به آن زمان 8000 نقطه.

3.1.2 کمی سازی
اگرچه سیگنال نمونه برداری شده یک سیگنال گسسته در محور زمان است ، اما هنوز یک سیگنال آنالوگ است و مقدار نمونه آن می تواند در محدوده خاصی از مقادیر تعداد نامحدودی داشته باشد. روش "گرد کردن" باید برای "گرد کردن" مقادیر نمونه در نظر گرفته شود ، به طوری که مقادیر نمونه در یک محدوده مقدار مشخص از تعداد نامحدود مقادیر به تعداد محدودی از مقادیر تغییر یابد. این فرآیند نامیده می شود کمی سازی

تعداد بیت نمونه برداری: به تعداد بیت های مورد استفاده برای توصیف سیگنال دیجیتال اشاره دارد.
8 بیت (8 بیت) نشان دهنده 2 تا قدرت 8 = 256 ، 16 بیت (16 بیت) نشان دهنده 2 تا قدرت 16 = 65536 است.

نمونه:
به عنوان مثال ، دامنه ولتاژ جمع آوری شده توسط سنسور صوتی 0-3.3V است و تعداد نمونه 8bit (بیت) است
یعنی ، ما 3.3V / 2 ^ 8 = 0.0128 را به عنوان دقت اندازه گیری در نظر می گیریم.
همانطور که در شکل 3.3 نشان داده شده است ، 0.0128v را به 3 تقسیم می کنیم ، همانطور که در شکل 1 نشان داده شده است ، 2 8… 0 0.0128 0.0256 3.3… XNUMX V می شود
به عنوان مثال ، مقدار ولتاژ یک نقطه نمونه برداری 1.652V (بین 1280.128 تا 1290.128) است. ما آن را تا 1.65 ولت دور می کنیم و سطح کمی مربوطه 128 است.

3.1.3 رمزگذاری
سیگنال نمونه برداری کوانتیزه به یک سری جریان کد دیجیتال اعشاری تبدیل می شود که با توجه به توالی نمونه برداری ، یعنی سیگنال دیجیتال اعشاری مرتب شده اند. یک سیستم داده ساده و کارآمد ، یک سیستم کد باینری است. بنابراین ، کد دیجیتال اعشاری باید به یک کد باینری تبدیل شود. با توجه به تعداد کل کدهای دیجیتال اعشاری ، می توان تعداد بیت های مورد نیاز برای کدگذاری باینری ، یعنی طول کلمه (تعداد بیت های نمونه گیری) را تعیین کرد. به این فرایند تبدیل سیگنال نمونه کوانتیزه شده به یک جریان کد باینری با طول کلمه داده شده ، کدگذاری گفته می شود.

نمونه:
سپس 1.65 ولت فوق مربوط به سطح کمی سازی 128 است. سیستم باینری مربوطه 10000000 است. یعنی نتیجه رمزگذاری نقطه نمونه برداری 10000000 است. البته این یک روش رمزگذاری است که مقادیر مثبت و منفی را در نظر نمی گیرد. ، و انواع مختلفی از روش های رمزگذاری وجود دارد که نیاز به تجزیه و تحلیل خاص از موضوعات خاص دارد. (رمزگذاری قالب صوتی PCM کدگذاری چند خطی A-law 13 است)

3.2 کدگذاری صوتی PCM
سیگنال PCM هیچگونه کدگذاری و فشرده سازی (فشرده سازی بدون از دست دادن) را تجربه نکرده است. در مقایسه با سیگنال های آنالوگ ، به راحتی تحت تأثیر شلوغی و تحریف سیستم انتقال قرار نمی گیرد. دامنه دینامیکی گسترده است و کیفیت صدا نیز کاملاً مناسب است.

3.2.1 رمزگذاری PCM
کدگذاری مورد استفاده کدگذاری چندخطی A-law 13 است.
برای جزئیات بیشتر ، به: کدگذاری صوتی PCM مراجعه کنید

3.2.2 کانال
کانال ها را می توان به مونو و استریو (دو کانال) تقسیم کرد.

هر مقدار نمونه PCM در یک عدد صحیح i موجود است و طول i حداقل تعداد بایت مورد نیاز برای قرار دادن طول نمونه مشخص شده است.

اندازه نمونه قالب داده حداقل مقدار حداکثر مقدار
8 بیتی PCM بدون علامت 0 225
16 بیتی PCM int -32767 32767

برای پرونده های صوتی تک ، داده های نمونه برداری یک عدد صحیح کوتاه 8 بیتی (کوتاه int 00H-FFH) است و داده های نمونه برداری به ترتیب زمانی ذخیره می شوند.

فایل صوتی استریو دو کاناله ، هر داده نمونه برداری یک عدد صحیح 16 بیتی (int) است ، هشت بیت بالا (کانال سمت چپ) و هشت بیت پایینی (کانال سمت راست) به ترتیب دو کانال را نشان می دهد و داده های نمونه برداری به ترتیب زمانی است واریز به ترتیب جایگزین.
وقتی تعداد بیت های نمونه برداری 16 بیت باشد ، همین امر صادق است و ذخیره سازی مربوط به ترتیب بایت است.

قالب داده PCM
همه پروتکل های شبکه از روش endian بزرگ برای انتقال داده استفاده می کنند. بنابراین ، به روش بزرگ endian ، ترتیب بایت شبکه نیز گفته می شود. هنگامی که دو میزبان با ترتیب بایت متفاوت با یکدیگر ارتباط برقرار می کنند ، باید قبل از ارسال داده ها قبل از ارسال ، به ترتیب بایت شبکه تبدیل شوند.

4 G.711
به طور کلی PCM ، سیگنال آنالوگ قبل از دیجیتالی شدن ، تحت برخی پردازش ها (مانند فشرده سازی دامنه) قرار می گیرد. پس از دیجیتالی شدن ، سیگنال PCM معمولاً بیشتر پردازش می شود (مانند فشرده سازی داده های دیجیتال).

G.711 یک الگوریتم استاندارد سیگنال دیجیتال چندرسانه ای (فشرده سازی / رفع فشار) است که mکد پالس را از ITU-T کاهش می دهد. این یک روش نمونه گیری برای دیجیتالی کردن سیگنال های آنالوگ ، به ویژه برای سیگنال های صوتی است. PCM سیگنال را 8000 بار در ثانیه ، 8KHz نمونه برداری می کند. هر نمونه 8 بیت است ، در مجموع 64Kbps (DS0). برای کدگذاری سطح نمونه گیری دو استاندارد وجود دارد. آمریکای شمالی و ژاپن از استاندارد Mu-Law استفاده می کنند ، در حالی که اکثر کشورهای دیگر از استاندارد A-Law استفاده می کنند.

A-law و u-law دو روش رمزگذاری PCM هستند. A-law PCM در اروپا و کشور من و Mu-law در آمریکای شمالی و ژاپن استفاده می شود. تفاوت این دو روش کمی سازی است. قانون A از کوانتیزاسیون 12 بیتی و قانون u از 13 کوانتیزاسیون استفاده می کند. فرکانس نمونه برداری 8KHz است و هر دو روش رمزگذاری 8 بیتی هستند.

درک ساده: PCM داده اصلی صوتی است که توسط تجهیزات صوتی جمع آوری می شود. G.711 و AAC دو الگوریتم متفاوت هستند که می توانند داده های PCM را به نسبت معینی فشرده کرده و در نتیجه پهنای باند را در انتقال شبکه ذخیره کنند.