ادراک گفتار/ دکتر محمدرضا باطنی

در آواشناسي‌، هنگام‌ بحث‌ از صداهاي‌ زبان‌، گفته‌ مي‌شود كه‌ صداهاي‌ زبان‌ به‌ وسيلة‌ اندام‌هاي‌ گويايي‌ (مانند تارهاي‌ صوتي‌، لب‌ها و غيره‌) توليد مي‌شوند. ولي‌ بايد به‌ ياد داشته‌ باشيم‌ كه‌ واقعيّت‌ امر چنين‌ نيست‌. توضيح‌ اينكه‌ اندام‌هاي‌ گويايي‌ ما صدا توليد نمي‌كنند، بلكه‌ ذرات‌ هوا را طبق‌ الگوهاي‌ خاصي‌ به‌ هم‌ مي‌زنند، يا به‌ بيان‌ دقيق‌تر، در آنها ايجاد ارتعاش‌ مي‌كنند. اين‌ ارتعاش‌ها، محرك‌ صوت‌ هستند، نه‌ خود صوت‌. ادراك‌ صوت‌، ويژگي‌ دستگاه‌ شنوايي‌ ما است‌، بدين‌ معني‌ كه‌ دستگاه‌ شنوايي‌ ما آنچنان‌ ساخته‌ شده‌ و سازمان‌ يافته‌ است‌ كه‌ اين‌ ارتعاش‌ها را به‌ صورت‌ صوت‌ ادراك‌ مي‌كند، وگرنه‌ در جهان‌ خارج‌ صوت‌ يا صدا وجود ندارد. آنچه‌ وجود دارد تموّج‌ انرژي‌ در ذرات‌ هواست‌. با اين‌ همه‌، ما مي‌توانيم‌ همچنان‌ از توليد صدا به‌ وسيلة‌ اندام‌هاي‌ گويايي‌ صحبت‌ كنيم‌ به‌ شرط‌ اينكه‌ فراموش‌ نكنيم‌ كه‌ اين‌ كار متّكي‌ بر نوعي‌ تسامح‌ است‌، تسامحي‌ كه‌ كار ما را در بحث‌ از صداهاي‌ زبان‌ آسان‌ مي‌سازد. يك‌ هشدار ديگر را نيز نمي‌توان‌ ناديده‌ گرفت‌: اگر ادراك‌ صوت‌، و از جمله‌ صداهاي‌ زبان‌، ناشي‌ از ويژگي‌ يا ويژگي‌هاي‌ دستگاه‌ شنوايي‌ ما است‌، پس‌ هنگام‌ بحث‌ از صداهاي‌ زبان‌، و در سطحي‌ بالاتر، هنگام‌ بحث‌ از زنجيرة‌ گفتار، نمي‌توان‌ از توجه‌ به‌ ساخت‌ و كار اين‌ دستگاه‌ به‌كلي‌ غافل‌ بود.

بسياري‌ از درس‌خوانده‌ها، تحت‌ تأثير آشنايي‌ خود با خط‌ و نوشته‌، چنين‌ مي‌پندارند كه‌ صداهاي‌ زبان‌ در هنگام‌ گفتار، همانند حروف‌ در نوشتار، يكي‌ پس‌ از ديگري‌ ادا مي‌شوند، بدين‌ معني‌ كه‌ اندام‌هاي‌ گويايي‌ نخست‌ صدايي‌ را تلفظ‌ مي‌كنند و پس‌ از فراغت‌ يافتن‌ از آن‌ به‌ تلفظ‌ صداهاي‌ دوم‌ و سوم‌ مي‌پردازند و اين‌ كار را تا پايان‌ زنجيرة‌ گفتار ادامه‌ مي‌دهند، به‌ طوري‌ كه‌ هر صدا منفك‌ و مجزا از صداي‌ قبل‌ و بعد آن‌ قابل‌ تميز و تشخيص‌ است‌. اين‌ تصور به‌ كلي‌ نادرست‌ است‌: صداهاي‌ زبان‌ در زنجيرة‌ گفتار نه‌ چنين‌ تلفظ‌ مي‌شوند و نه‌ دستگاه‌ شنوايي‌ ما آنها را به‌ اين‌ صورت‌ ادراك‌ مي‌كند.

اندام‌هاي‌ گفتار را به‌ رقاص‌ ماهري‌ تشبيه‌ كرده‌اند كه‌ در همان‌ حال‌ كه‌ مشغول‌ انجام‌ دادن‌ حركتي‌ است‌ خود را براي‌ حركت‌ بعدي‌ آماده‌ مي‌كند و از اين‌رو حركات‌ او موزون‌ و هم‌آهنگ‌ جلوه‌ مي‌كند. وقتي‌ به‌ تلفظ‌ صداهاي‌ زبان‌ توجه‌ مي‌كنيم‌ مي‌بينيم‌ كه‌ اين‌ تشبيه‌ چندان‌ بي‌مورد نيست‌. فرض‌ كنيد كه‌ ما مي‌خواهيم‌ واژة‌ تك‌هجايي‌ «بيد» را تلفظ‌ كنيم‌. اولين‌ صداي‌ اين‌ كلمه‌ /b/، دومين‌ صداي‌ آن‌ /i/ و صداي‌ پاياني‌ آن‌ نيز /d/ است‌. براي‌ تلفظ‌ /b/ بايد دو لب‌ نخست‌ بسته‌ و سپس‌ باز شوند و براي‌ تلفظ‌ /i/ نيز زبان‌ بايد در وضع‌ خاصي‌ قرار گيرد. آنچه‌ مسلم‌ است‌ ما اين‌ دو عمل‌ را مجزا و منفك‌ از يكديگر انجام‌ نمي‌دهيم‌، بلكه‌ آنها را تواماً انجام‌ مي‌دهيم‌، بدين‌ معني‌ كه‌ در همان‌ هنگام‌ كه‌ لب‌ها را براي‌ تلفظ‌ /b/ مي‌بنديم‌ زبان‌ را نيز در وضعي‌ قرار مي‌دهيم‌ كه‌ تلفظ‌ /i/ ايجاب‌ مي‌كند. نتيجة‌ اين‌ كار اين‌ است‌ كه‌ تقريباً همزمان‌ با گشوده‌ شدن‌ لب‌ها و رها شدن‌ هوايي‌ كه‌ در پشت‌ آنها فشرده‌ شده‌ تلفظ‌ /i/ نيز آغاز شده‌ است‌. اين‌ بدان‌ معنا است‌ كه‌ اساساً مرزي‌ وجود ندارد كه‌ بتوان‌ گفت‌ در اينجا تلفظ‌ /b/ پايان‌ مي‌يابد و تلفظ‌ /i/ آغاز مي‌شود. حاصل‌ اين‌ درهم­تنيدگي‌ اين‌ است‌ كه‌ مقداري‌ از اطلاعات‌ آكوستيكي‌ كه‌ براي‌ شناسايي‌ /b/ لازم‌ است‌ در درون /i/ و مقداري‌ از اطلاعات‌ آكوستيكي‌ كه‌ براي‌ شناسايي /i/ لازم‌ است‌ در درون /b/ قرار مي‌گيرد، يا به‌ زبان‌ غيرفني‌، رد پاي‌ /b/ در /i/ و رد پاي‌ /i/ در /b/ نمايان‌ مي‌گردد. همين‌ وضع‌ نيز در مورد صداي‌ پاياني‌ كلمه‌ يعني‌ /d/ پيش‌ مي‌آيد. در اينجا نيز پيش‌ از آنكه‌ تلفظ /i/ پايان‌ يابد، محفظة‌ دهان‌ براي‌ تلفظ‌ /d/ آماده‌ مي‌شود، به‌طوري‌كه‌ بخشي‌ از تلفظ‌ /d/ با /i/ همزمان‌ مي‌گردد. در اينجا نيز مرز مشخصي‌ وجود ندارد كه‌ بتوان‌ گفت‌ تلفظ‌ /i/ در اينجا پايان‌ يافته‌ و تلفظ‌ /d/ آغاز شده‌ است‌. در واقع‌ كلمة‌ «بيد» در تلفظ‌، از يك‌ زنجيرة‌ آوايي‌ به‌ هم‌ تنيده‌ و تجزيه‌ناپذير تشكيل‌ شده‌ است‌. تجزيه‌ و تحليل‌ آزمايشگاهي‌ گفتار نيز مشاهدات‌ بالا را تأييد مي‌كند. طيف‌نگاشت‌هاي‌ صوتي‌ نشان‌ مي‌دهند كه‌ ويژگي‌هاي‌ آكوستيكي‌ صداهاي‌ زبان‌ در زنجيرة‌ گفتار در قلمرو يكديگر وارد مي‌شوند و روي‌ هم‌ به‌ شدت‌ تأثير مي‌گذارند.

دکتر محمدرضا باطنی( عکس از ستاره سلیمانی)

بد نيست‌ به‌ مثالي‌ از نوع‌ ديگر توجه‌ كنيم‌. اين‌ بار تلفظ‌ دو كلمة‌ تك‌هجايي‌ «كي‌» /ki/ و «كو» /ku/ را مقايسه‌ مي‌كنيم‌. در سطح‌ واجشناسي‌ مي‌توان‌ گفت‌ كه‌ اين‌ دو كلمه‌ هر دو با صامت‌ /k/ آغاز مي‌شوند و با دو مصوت‌ متفاوت‌ پايان‌ مي‌يابند. واج‌نويسي‌ آنها نيز به‌ همين‌ صورت‌ خواهد بود. ولي‌ هنگام‌ تلفظ‌، كيفيّت‌ آكوستيكي‌ /k/ در آغاز «كي‌» با كيفيّت‌ آكوستيكي /k/ در آغاز «كو» تقريباً همان‌ اندازه‌ متفاوت‌ است‌ كه‌ كيفيّت‌ آكوستيكي‌ مصوت‌هايي‌ كه‌ به‌ دنبال‌ آنها مي‌آيند. براي‌ تلفظ /k/ در هر دو مورد عقب‌ زبان‌ بالا مي‌آيد و به‌ نرم‌كام‌ مي‌چسبد و راه‌ خروج‌ هوا را سد مي‌كند و در نتيجه‌، هوا در پشت‌ اين‌ مانع‌ انباشته‌ مي‌شود. ولي‌ در مورد «كي‌» همزمان‌ با متراكم‌ شدن‌ هوا در پشت‌ اين‌ مانع‌، حفرة‌ دهان‌ خود را براي‌ تلفظ‌ /i/ آماده‌ مي‌كند، در حالي‌ كه‌ در مورد «كو» حفرة‌ دهان‌ براي‌ تلفظ‌ /u/ آماده‌ مي‌شود. در نتيجه‌، هوايي‌ كه‌ در پشت‌ زبان‌ متراكم‌ شده‌ در دو محفظة‌ تشديد كه‌ شكل‌ متفاوتي‌ دارند تخليه‌ مي‌شود و همين‌ باعث‌ مي‌شود كه‌ صداي‌ انفجار خفيفي‌ كه‌ از رها شدن‌ هوا ايجاد مي‌شود هر بار كيفيّت‌ آكوستيكي‌ متفاوتي‌ پيدا كند و دو صداي‌ متفاوت‌ با دو /k/ متفاوت‌ توليد شود. پاسخ‌ اين‌ سؤال‌ كه‌ پس‌ چرا ما فقط‌ يك‌ صداي /k/ مي‌شنويم‌ ديگر به‌ توليد گفتار مربوط‌ نمي‌شود بلكه‌ به‌ ادراك‌ گفتار مربوط‌ مي‌شود. در اين‌ مورد، پاسخ‌ سؤال‌ اين‌ است‌: چون‌ تفاوت‌ آكوستيكي‌ ميان‌ دو صداي‌ /k/ در نظام‌ آوايي‌ (يا فونولوژي‌) زبان‌ ما نقشي‌ به‌ عهده‌ ندارد دستگاه‌ شنوايي‌ ما نسبت‌ به‌ تفاوت‌ آنها بي‌اعتنا است‌ و در نتيجه‌، آن‌ دو صداي‌ متفاوت‌ يك‌ صدا ادراك‌ مي‌شوند.

شواهد زيادي‌ در دست‌ است‌ كه‌ نشان‌ مي‌دهند دستگاه‌هاي‌ گفتار و شنيدار ما با يكديگر سخت‌ هم‌آهنگ‌ شده‌اند. از مطالعات‌ آزمايشگاهي‌ كه‌ روي‌ ادراك‌ گفتار صورت‌ گرفته‌ چنين‌ برمي‌آيد كه‌ دستگاه‌ شنوايي‌ ما نسبت‌ به‌ رد پايي‌ كه‌ صداهاي‌ زبان‌ روي‌ يكديگر مي‌گذارند بسيار حساس‌ است‌، تا جايي‌ كه‌ به‌ كمك‌ همين‌ تأثيرات‌ آكوستيكي‌ جانبي‌ است‌ كه‌ مي‌تواند صداهاي‌ زبان‌ را در زنجيرة‌ گفتار از هم‌ باز شناسد. بنابراين‌، درهم‌تنيدگي‌ صداهاي‌ گفتار نه‌ تنها مانعي‌ در راه‌ شناسايي‌ و ادراك‌ صداها نيست‌، بلكه‌ خود كمكي‌ در اين‌ راه‌ است‌. مثلاً از شواهد آزمايشگاهي‌ چنين‌ برمي‌آيد كه‌ صامت‌هاي‌ انسدادي‌ و واكبر/g,d,b/ تنها از روي‌ تأثيري‌ كه‌ روي‌ مصوت‌ بعد از خود مي‌گذارند شناخته‌ و ادراك‌ مي‌شوند. اگر سه‌ هجاي‌ gâ, dâ, bâ را در نظر بگيريم‌ مشاهده‌ مي‌شود كه‌ وجود /g, d, b/ در آغاز هجا، روي‌ فورمان‌ دوم‌ مصوت‌ /â/ اثر مي‌گذارد، به‌ اين‌ نحو كه‌ آغاز فورمان‌ دوم‌ پس‌ از /b/ رو به‌ بالا خيز برمي‌دارد، پس‌ از /d/ تغيير محسوسي‌ نمي‌كند يا خيزشي‌ اندك‌ نشان‌ مي‌دهد، ولي‌ پس‌ از /g/ به‌ شدت‌ فرو مي‌افتد. با دستكاري‌هاي‌ آزمايشگاهي‌ مي‌توان‌ اين‌ سه‌ آغاز متفاوت‌ را بريد و جداگانه‌ به‌ آنها گوش‌ داد. در اين‌ صورت‌ ديگر صداي /g, d, b/ شنيده‌ نمي‌شود، بلكه‌ صداهاي‌ غيرزباني‌ شنيده‌ مي‌شود كه‌ زير و بمي‌ آنها نسبت‌ به‌ هم‌ تغيير مي‌كند. ولي‌ پس‌ از اينكه‌ اين‌ قطعاتِ بريده‌ شده‌ در جاي‌ خود قرار گيرند دوباره‌ هجاهاي gâ, dâ, bâ شنيده‌ مي‌شوند. شواهدي‌ از اين‌ دست‌، دانشمندان‌ گفتارشناس‌ را به‌ سوي‌ اين‌ نظريه‌ كشانده‌ است‌ كه‌ كوچكترين‌ واحد ادراك‌ گفتار هجا است‌ و نه‌ صداهاي‌ منفرد.

دلايل‌ و شواهد ديگري‌ نيز در جهت‌ تأييد اين‌ نظريه‌ ارائه‌ شده‌اند. مثلاً محاسبه‌ شده‌ كه‌ در گفتار عادي‌، ما در ثانيه‌ 25 تا 30 صدا را دريافت‌ و ادراك‌ مي‌كنيم‌. حال‌ اگر اين‌ تعداد صدا بدون‌ هيچگونه‌ همپوشاني‌ زنجيروار به‌ دنبال‌ هم‌ قرار گيرند و به‌ گوش‌ ما رسانده‌ شوند، ديگر گوش‌ ما گفتار نخواهد شنيد، بلكه‌ يك‌ صداي‌ واحد «ويز» مانند خواهد شنيد، زيرا دستگاه‌ شنوايي‌ ما توانايي‌ اين‌ را ندارد كه‌ مرز اين‌ تعداد صدا در ثانيه‌ را تشخيص‌ دهد و در نتيجه‌ ما آنها را يكپارچه‌ و به‌ صورت‌ صداي‌ واحدي‌ مي‌شنويم‌، همانگونه‌ كه‌ دستگاه‌ بينايي‌ ما هم‌ توانايي‌ اين‌ را ندارد كه‌ بين‌ اين‌ تعداد تصوير متفاوت‌ در ثانيه‌ تمايز قايل‌ شود و در نتيجه‌ آنها را به‌ صورت‌ يك‌ تصوير پيوسته‌ ادراك‌ مي‌كند. اگر ما مي‌توانيم‌ 25 تا 30 صداي‌ گفتار را در ثانيه‌ ادراك‌ كنيم‌ و بين‌ آنها تمايز بگذاريم‌ به‌ اين‌ دليل‌ است‌ كه‌ صداهاي‌ گفتار همپوشاني‌ دارند و به‌ صورت‌ بسته‌هايي‌ كه‌ هر يك‌ يك‌ هجا هستند به‌ گوش‌ عرضه‌ مي‌شوند. بنابراين‌، معيار اندازه‌گيري‌ قدرت‌ پردازش‌ دستگاه‌ شنوايي‌ ما تعداد صداهايي‌ نيست‌ كه‌ در مدتي‌ معين‌، مثلاً يك‌ ثانيه‌، دريافت‌ مي‌شوند بلكه‌ تعداد هجاهايي‌ است‌ كه‌ در اين‌ مدت‌ مي‌توانند ادراك‌ شوند. علاوه‌ بر شواهد آزمايشگاهي‌، شواهد رفتاري‌ نيز مي‌توان‌ در تأييد اين‌ نظريه‌ ارائه‌ كرد. ديده‌ مي‌شود كه‌ كودكان‌ شش‌ ساله‌ در كلاس‌ اول‌ دبستان‌ به‌ سختي‌ مي‌توانند بفهمند كه‌ يك‌ كلمه‌ از چند صدا تركيب‌ شده‌ است‌، در حاليكه‌ با اندكي‌ راهنمايي‌ مي‌توانند كلمه‌ را به‌ هجاهاي‌ سازندة‌ آن‌ بخش‌ كنند. همچنين‌ افراد بي‌سواد نمي‌توانند بگويند يك‌ كلمه‌ از چند صدا تشكيل‌ شده‌ است‌، ولي‌ با اندكي‌ آموزش‌ مي‌توانند از عهدة‌ تقطيعِ هجايي‌ كلمات‌ برآيند، بدون‌ اينكه‌ بتوانند عمل‌ خود را توجيه‌ كنند. اين‌ شواهد همه‌ بر اين‌ دلالت‌ دارند كه‌ دستگاه‌ شنوايي‌ ما طوري‌ ساخته‌ شده‌ كه‌ مي‌تواند هجاهاي‌ زبان‌ را به‌ آساني‌ ادراك‌ كند، در حالي‌ كه‌ ادراك‌ صداهاي‌ مجزاي‌ زبان‌ براي‌ آن‌ دشوار و گاهي‌ غيرممكن‌ است‌.

پژوهش‌هاي‌ اخير دربارة‌ ادراك‌ گفتار ما را از اين‌ نيز فراتر مي‌برند. گفته‌ مي‌شود كه‌ دستگاه‌ شنوايي‌ انسان‌ طوري‌ تكامل‌ يافته‌ كه‌ نه‌تنها صداهاي‌ گفتار را از صداهاي‌ ديگر تشخيص‌ مي‌دهد، بلكه‌ آنها را در قسمت‌هاي‌ مختلف‌ مغز پردازش‌ مي‌كند. پيش‌ از آنكه‌ به‌ ذكر آزمايش‌ جالبي‌ كه‌ در جهت‌ تأييد اين‌ نظريه‌ صورت‌ گرفته‌ بپردازيم‌ بايد دو نكته‌ را يادآور شويم‌. يكي‌ اينكه‌ امروز بين‌ اهل‌ فن‌ قبول‌ عام‌ يافته‌ كه‌ مراكز توليد و ادراك‌ گفتار در اكثريت‌ قريب‌ به‌ اتفاق‌ مردم‌ در نيمكرة‌ چپ‌ مغز قرار گرفته‌ است‌. ديگر اينكه‌ رشته‌هاي‌ عصب‌ شنوايي‌ از هر گوش‌ به‌ هر دو نيمكرة‌ مغز مي‌روند، ولي‌ تعداد رشته‌هاي‌ عصبي‌ كه‌ از گوش‌ راست‌ به‌ نيمكرة‌ چپ‌ مي‌روند بسيار بيشتر از رشته‌هاي‌ عصبي‌ است‌ كه‌ از گوش‌ راست‌ به‌ نيمكرة‌ راست‌ مي‌روند؛ همچنين‌ تعداد رشته‌هاي‌ عصبي‌ كه‌ از گوش‌ چپ‌ به‌ نيمكرة‌ راست‌ مي‌روند بسيار بيشتر از رشته‌هاي‌ عصبي‌ است‌ كه‌ از گوش‌ چپ‌ به‌ نيمكرة‌ چپ‌ مي‌روند. در آزمايش‌ مزبور، زوج‌هايي‌ از هجاهاي‌ بي‌معنا و متفاوت‌، مانند ta و ga ، را انتخاب‌ كردند و هر يك‌ از دو هجاي‌ يك‌ جفت‌ را به‌طور همزمان‌ به‌ كمك‌ دستگاه‌ مخصوص‌ در يكي‌ از دو گوش‌ وارد كردند. نتيجة‌ آزمايش‌ نشان‌ داد كه‌ هجاهايي‌ كه‌ درست‌ تشخيص‌ داده‌ شدند بيشتر آنهايي‌ بودند كه‌ به‌ گوش‌ راست‌ وارد شده‌ بودند. تا اينجا نتيجة‌ آزمايش‌ همان‌ چيزي‌ بود كه‌ از پيش‌ انتظار مي‌رفت‌، زيرا تعداد رشته‌هاي‌ عصبي‌ كه‌ از گوش‌ راست‌ به‌ نيمكرة‌ چپ‌، يعني‌ مركز تكلّم‌، مي‌روند بسيار بيشتر است‌. ولي‌ وقتي‌ به‌ جاي‌ هجاهاي‌ گفتار، ملودي‌هاي‌ ساده‌ يا نت‌هاي‌ موسيقايي‌ انتخاب‌ شد و به‌ همان‌ نحو همزمان‌ در دو گوش‌ نواخته‌ شد، نتيجه‌ برعكس‌ بود. اين‌ بار نتهايي‌ كه‌ درست‌ تشخيص‌ داده‌ شدند بيشتر آنهايي‌ بودند كه‌ در گوش‌ چپ‌ نواخته‌ شده‌ بودند. اين‌ نتيجه‌، نشان‌ داد كه‌ صداهاي‌ موسيقايي‌، برخلاف‌ صداهاي‌ گفتار، كلاً يا عمدتاً در نيمكرة‌ راست‌ پردازش‌ مي‌شوند. از كل‌ اين‌ آزمايش‌ مي‌توان‌ نتيجه‌ گرفت‌ كه‌ دستگاه‌ شنوايي‌ انسان‌ بين‌ صداهاي‌ گفتار و ديگر صداها تمايز قايل‌ مي‌شود و آنها را در مراكز متفاوتي‌ در مغز پردازش‌ مي‌كند.

شواهد ديگري‌ نيز عرضه‌ شده‌اند كه‌ نشان‌ مي‌دهند صداهاي‌ گفتار صداهاي‌ خاصي‌ هستند و دستگاه‌ شنوايي‌ ما براي‌ ادراك‌ يا پردازش‌ اين‌ صداها از استراتژي‌ خاصي‌ استفاده‌ مي‌كند. اين‌ موقعي‌ به‌ خوبي‌ آشكار مي‌شود كه‌ سعي‌ شود صداهاي‌ غيرگفتاري‌ را جانشين‌ صداهاي‌ گفتار كنند. يكي‌ از اين‌ موارد، تلاش‌ براي‌ ساختن‌ دستگاهي‌ است‌ كه‌ بتواند حروف‌ چاپي‌ را به‌ صدا، ولي‌ نه‌ صداهاي‌ گفتار، تبديل‌ كند تا نابينايان‌ به‌ جاي‌ ديدنِ نوشته‌ صدا بشنوند. بيش‌ از هفتاد سال‌ از تاريخ‌ اولين‌ تلاش‌ براي‌ ساختن‌ چنين‌ دستگاهي‌ مي‌گذرد، و در اين‌ مدت‌ الفباهاي‌ صوتي‌ متفاوتي‌ مورد آزمايش‌ قرار گرفته‌اند. ولي‌ در عمل‌ معلوم‌ شده‌ كه‌ هيچكدام‌ از اينها به‌ كارايي‌ الفباي‌ صوتي‌ مورس‌ نيستند. الفباي‌ مورس‌، كه‌ در مخابره‌ تلگرافي‌ به‌ كار مي‌رود، صوتي‌ است‌، ولي‌ صداهاي‌ آن‌ صداهاي‌ گفتار نيستند. به‌ همين‌ دليل‌ مشاهده‌ مي‌شود كه‌ دستگاه‌ شنوايي‌ انسان‌ پس‌ از سال‌ها آموزش‌ و تمرين‌ مي‌تواند صداهاي‌ مورس‌ را ادراك‌ كند، آن‌ هم‌ با سرعتي‌ كه‌ به‌ سختي‌ به‌ يك‌دهم‌ سرعت‌ ادراك‌ گفتار مي‌رسد، در حاليكه‌ صداهاي‌ زبان‌ بدون‌ هيچگونه‌ آموزش‌ و تمريني‌ به‌ سهولت‌ ادراك‌ مي‌شوند.

مطالعاتي‌ از اينگونه‌ بعضي‌ از دانشمندان‌ گفتارشناس‌ را بر آن‌ داشته‌ است‌ كه‌ ادعا كنند دستگاه‌ شنوايي‌ ما پردازشگر خاصي‌ براي‌ صداهاي‌ گفتار دارد. اين‌ پردازشگر مي‌تواند صداهاي‌ گفتار را حتي‌ در شرايط‌ آكوستيكي‌ نامساعد تشخيص‌ دهد و ارتباط‌ گفتاري‌ را امكان‌پذير سازد. مطالعات‌ آزمايشگاهي‌ نشان‌ داده‌ است‌ كه‌ اگر انرژي‌ موجود در صداهاي‌ مخل‌ به‌ اندازة‌ انرژي‌ موجود در گفتار باشد مكالمه‌ به‌ راحتي‌ صورت‌ مي‌گيرد. اگر انرژي‌ موجود در صداهاي‌ مخل‌ بر انرژي‌ موجود در گفتار بيشي‌ گيرد باز هم‌ گفتار قابل‌ درك‌ است‌؛ تنها موقعي‌ ادراك‌ گفتار با اشكالِ جدي‌ مواجه‌ مي‌شود كه‌ نسبت‌ انرژي‌ صداهاي‌ مخل‌ به‌ انرژي‌ گفتار به‌ مرز چهار به‌ يك‌ برسد. دستكاري‌هاي‌ آزمايشگاهي‌ در خصوصيات‌ آكوستيكي‌ گفتار ممكن‌ است‌ طبيعي‌ بودنِ گفتار را خدشه‌دار كنند يا به‌كلي‌ از بين‌ ببرند، ولي‌ الزاماً به‌ ادراك‌پذيري‌ آن‌ لطمه‌اي‌ وارد نمي‌كنند. در واقع‌ يكي‌ از كشف‌هاي‌ مهم‌ اين‌ بوده‌ است‌ كه‌ طبيعي‌ بودنِ گفتار و ادراك‌پذيري‌ آن‌ از يك‌ مقوله‌ نيستند. خصوصيات‌ آكوستيكي‌ كه‌ به‌ گفتار حالت‌ طبيعي‌ مي‌دهند متعدد و متنوع‌اند، ولي‌ همة‌ آنها براي‌ ادراكِ گفتار ضروري‌ نيستند. مثلاً طيف‌نگاشت‌ صوتي‌ نشان‌ مي‌دهد كه‌ مصوت‌ها، سه‌ و گاهي‌ چهار فورمان‌ دارند، ولي‌ فقط‌ فورمان‌ اول‌ و دوم‌ براي‌ ايجاد تمايز و ادراك‌ مصوت‌ كافي‌ است‌. مصوتي‌ كه‌ داراي‌ سه‌ فورمان‌ باشد طبيعي‌تر به‌ گوش‌ مي‌رسد، ولي‌ حذف‌ فورمان‌ سوم‌ تأثيري‌ در ادراك‌ مصوت‌ ندارد. بنابراين‌، تا زماني‌ كه‌ مؤلفه‌هاي‌ آكوستيكي‌ اساسي‌ در گفتار محفوظ‌ بمانند، گفتار قابل‌ درك‌ خواهد بود، و اين‌ در حالي‌ است‌ كه‌ به‌ علت‌ حذف‌ مؤلفه‌هاي‌ جانبي‌، طنين‌ آن‌ ممكن‌ است‌ كاملاً غيرطبيعي‌ شده‌ باشد. همچنين‌ مشاهده‌ شده‌ كه‌ قطع‌ و وصل‌هاي‌ سريع‌ در زنجيرة‌ گفتار و نيز پژواك‌، گرچه‌ آزارنده‌ هستند، ولي‌ در ادراك‌ گفتار تأثير چنداني‌ ندارند. دوبرابركردن‌ يا نصف‌كردن‌ سرعت‌ گفتار نيز در ادراك‌ آن‌ بي‌تأثير است‌. شدت‌ يا بلندي‌ گفتار فقط‌ تا جايي‌ ضروري‌ است‌ كه‌ گفتار را قابل‌ شنيدن‌ سازد؛ از اين‌ حد كه‌ بگذرد، افزايش‌ شدت‌ يا بلندي‌ گفتار در ادراك‌ آن‌ بي‌تأثير خواهد بود.

يكي‌ از زمينه‌هايي‌ كه‌ به‌ فهم‌ ما از ادراك‌ گفتار كمك‌ كرده‌ است‌ تلاش‌ براي‌ مجهزكردن‌ كامپيوتر به‌ نرم‌افزاري‌ است‌ كه‌ بتواند گفتار انسان‌ را درك‌ كند. در كامپيوترهاي‌ معمولي‌ كه‌ فعلاً در دسترس‌ هستند و مورد استفاده‌ قرار مي‌گيرند، تماس‌ انسان‌ با كامپيوتر از راه‌ صفحه‌ كليد است‌. اين‌ بدان‌ معنا است‌ كه‌ درون‌داد از طريق‌ نوشتار يا علائم‌ نوشتاري‌ به‌ كامپيوتر داده‌ مي‌شود و برون‌داد يا پاسخِ كامپيوتر نيز از طريق‌ نوشتار يا علائم‌ نوشتاري‌ از كامپيوتر گرفته‌ مي‌شود. هدف‌ ايده‌آل‌ اين‌ است‌ كه‌ صفحه‌ كليد از ميان‌ برداشته‌ شود و انسان‌ بتواند ارتباط‌ گفتاري‌ مستقيم‌ با كامپيوتر برقرار كند. اين‌ ارتباطِ گفتاري‌ را نبايد با تماس‌ تلفني‌ اشتباه‌ كرد. در تماس‌ تلفني‌ حداقل‌ دو انسان‌ شركت‌ دارند و خط‌ تلفن‌ و دستگاه‌هاي‌ وابسته‌ به‌ آن‌ مجراي‌ انتقال‌ پيام‌ هستند، ولي‌ در ارتباط‌ گفتاري‌ مستقيم‌ با كامپيوتر، هدف‌ اين‌ است‌ كه‌ كامپيوتر نقش‌ يكي‌ از آن‌ دو انسان‌ را به‌ عهده‌ بگيرد. ارتباط‌ گفتاري‌ مستقيم‌ با كامپيوتر بدين‌ معنا است‌ كه‌ كاربر، به‌ جاي‌ استفاده‌ از صفحه‌ كليد، مستقيماً در ميكروفني‌ كه‌ به‌ كامپيوتري‌ متصل‌ است‌ صحبت‌ كند و پاسخ‌ خود را نيز بي‌واسطه‌ از بلندگوي‌ كامپيوتر بشنود. البته‌ اين‌ مانع‌ از آن‌ نيست‌ كه‌ يكي‌ از دو قطب‌، گفتاري‌ و ديگري‌ نوشتاري‌ باشد. مثلاً كاربر در ميكروفن‌ كامپيوتر صحبت‌ كند و از كامپيوتر بخواهد گفته‌هاي‌ او را تايپ‌ كند، كه‌ در اين‌ صورت‌ درون‌داد گفتاري‌ و برون‌داد نوشتاري‌ است‌؛ يا برعكس‌ متني‌ نوشته‌ به‌ كامپيوتر داده‌ شود و از آن‌ خواسته‌ شود كه‌ متن‌ را بخواند، كه‌ در اين‌ صورت‌ درون‌داد نوشتاري‌ و برون‌داد گفتاري‌ است‌. به‌ هر حال‌، ارتباط‌ گفتاري‌ با كامپيوتر پاي‌ دو فرايند بسيار پيچيده‌ را به‌ ميان‌ مي‌كشد: يكي‌ شناخت‌ گفتار (speech recognition) و ديگري‌ تركيب‌ گفتار (speech synthesis). شناخت‌ گفتار مستلزم‌ اين‌ است‌ كه‌ كامپيوتر به‌ نرم‌افزاري‌ مجهز باشد كه‌ به‌ آن‌ امكان‌ دهد عناصر سازنده‌ گفتار را شناسايي‌ كند و پيام‌ را از آنها بيرون‌ بكشد، در حاليكه‌ تركيب‌ گفتار مستلزم‌ آن‌ است‌ كه‌ نرم‌افزار طوري‌ ساخته‌ شده‌ باشد كه‌ كامپيوتر بتواند مؤلفه‌هاي‌ آكوستيكي‌ لازم‌ را با هم‌ تركيب‌ كند و پاسخ‌ خود را به‌ صورت‌ گفتار مصنوعي‌ ارائه‌ دهد. در اينجا مجال‌ آن‌ نيست‌ كه‌ به‌ جنبه‌هاي‌ فنّي‌ اين‌ فرايندها پرداخته‌ شود، ناچار فقط‌ به‌ نكاتي‌ اشاره‌ خواهد شد كه‌ بتوانند پرتو تازه‌اي‌ روي‌ بحث‌ اصلي‌ ما، يعني‌ ادراك‌ گفتار به‌وسيلة‌ انسان‌، بيندازد.

از اين‌ دو فرايند، تركيب‌ گفتار ساده‌تر از شناخت‌ گفتار از آب‌ درآمده‌ است‌، به‌طوري‌ كه‌ امروز كامپيوتر مي‌تواند به‌ صورت‌ برون‌داد نوعي‌ گفتار مصنوعي‌ عرضه‌ كند كه‌ به‌ گفتار طبيعي‌ بسيار نزديك‌ است‌ و به‌ همين‌ دليل‌ از لحاظ‌ تجاري‌ مورد قبول‌ قرار گرفته‌ و كاربردهايي‌ پيدا كرده‌ است‌، ولي‌ در شناخت‌ گفتار، كه‌ قرينة‌ ادراك‌ گفتار در انسان‌ است‌، پيشرفت‌ چنداني‌ حاصل‌ نشده‌ است‌. يكي‌ از علل‌ مهم‌ اين‌ ناكامي‌ اين‌ است‌ كه‌ زنجيرة‌ گفتار را نمي‌توان‌ به‌ راحتي‌ به‌ صداهاي‌ تركيب‌كنندة‌ آن‌ تقطيع‌ كرد و واج‌هاي‌ آن‌ را شناسايي‌ نمود، زيرا همانگونه‌ كه‌ قبلاً گفته‌ شد، در هنگام‌ تلفظ‌، صداهاي‌ زبان‌ درهم‌ تنيده‌ مي‌شوند به‌طوري‌ كه‌ هر قطعه‌ كوچكي‌ از زنجيرة‌ گفتار، حاوي‌ اطلاعات‌ آكوستيكي‌ دربارة‌ دو و گاهي‌ سه‌ واج‌ است‌ كه‌ درهم‌ فرو رفته‌ و با هم‌ همپوشاني‌ يافته‌اند. علاوه‌ بر اين‌، تغييرات‌ واج‌ها در بافت‌هاي‌ آوايي‌ متفاوت‌، هويت‌ آنها را دستخوش‌ نوسان‌ مي‌كند، و همين‌ امر، كه‌ براي‌ دستگاه‌ شنوايي‌ انسان‌ بسيار بي‌اهميت‌ و غيرقابل‌ اعتنا است‌، يكي‌ از موانع‌ بزرگ‌ در راه‌ شناخت‌ گفتار به‌وسيلة‌ كامپيوتر است‌. نخستين‌ سيستمي‌ كه‌ براساس‌ تقطيع‌ واجي‌ زنجيرة‌ گفتار براي‌ كامپيوتر طراحي‌ شده‌ در دهة‌ 1950 به‌وجود آمد، ولي‌ ناتواني‌ اين‌ سيستم‌ به‌ زودي‌ آشكار شد و به‌ دست‌ فراموشي‌ سپرده‌ شد. از آن‌ زمان‌ به‌ بعد، اين‌ رويكرد نسبت‌ به‌ شناخت‌ گفتار به‌كلي‌ كنار گذارده‌ شده‌ است‌.

امروز سيستم‌هايي‌ كه‌ براي‌ شناسايي‌ گفتار طراحي‌ مي‌شوند، از الگو (template) استفاده‌ مي‌كنند، بدين‌ معني‌ كه‌ ويژگي‌هاي‌ اكوستيكي‌ كل‌ كلمه‌، و نه‌ واج‌هاي‌ سازنده‌ آن‌، را به‌ زبان‌ رياضي‌ در حافظة‌ كامپيوتر نگهداري‌ مي‌كنند. بعضي‌ از سيستم‌ها نيز هجا را به‌ عنوان‌ الگو انتخاب‌ كرده‌اند. غرض‌ ما از طرح‌ اين‌ مسأله‌ تشريح‌ چگونگي‌ شناخت‌ گفتار نيست‌، بلكه‌ مي‌خواهيم‌ نتيجه‌اي‌ بگيريم‌ كه‌ گفته‌هاي‌ قبلي‌ در اين‌ مقاله‌ را تأييد مي‌كند: مهندسان‌ كامپيوتر نيز به‌ اين‌ نتيجه‌ رسيده‌اند كه‌ واج‌ها يا صداهاي‌ منفرد گفتار، واحد ادراك‌ نيستند، بلكه‌ كوچكترين‌ واحد ادراكِ گفتار احتمالاً هجا است‌.

اكنون‌ كه‌ سخن‌ به‌ اينجا رسيد بد نيست‌ مطلب‌ ديگري‌ را نيز يادآور شويم‌. امروز در ميان‌ زبانشناسان‌ و روانشناسان‌ قبول‌ عام‌ يافته‌ كه‌ گفتار صورت‌ طبيعيِ ارتباط‌ در انسان‌ است‌، در حالي‌ كه‌ نوشتار امري‌ ثانوي‌ و عرضي‌ است‌. به‌ همين‌ دليل‌، توليد و ادراك‌ گفتار براي‌ انسان‌ بسيار ساده‌ است‌ و فراگيري‌ آن‌ نيازي‌ به‌ آموزش‌ ندارد. اما خط‌ و نگارش‌ را بايد یاد گرفت‌ و يادگيري‌ آن‌ احتياج‌ به‌ سال‌ها ممارست‌ و تمرين‌ دارد. اما وقتي‌ به‌ نحوة‌ كار كامپيوتر نگاه‌ مي‌كنيم‌ وضع‌ را كاملاً برعكس‌ مي‌بينيم‌: شناخت‌ نوشتار و كار كردن‌ با نوشتار براي‌ كامپيوتر بسيار آسان‌تر از گفتار است‌. شايد ذكر مثالي‌ اين‌ موضوع‌ را روشن‌تر كند. نگهداري‌ صورت‌ نوشتاري‌ كلمه‌اي‌ كه‌ از پنج‌ حرف‌ تركيب‌ شده‌ است‌، مثلاً كلمة‌ «ميزان‌»، پنج‌ بايت‌ يا چهل‌ بيت‌ حافظة‌ كامپيوتر را اشغال‌ مي‌كند، در حاليكه‌ نگهداري‌ الگوي‌ آوايي‌ اين‌ كلمه‌ با كيفيّت‌ متوسط‌ به‌ بيش‌ از 000/20 بيت‌ حافظه‌ نياز دارد، و اگر قرار باشد با كيفيّت‌ آكوستيكي‌ عالي‌ نگهداري‌ شود به‌ بيش‌ از 000/40 بيت‌ حافظه‌ نياز خواهد داشت‌. تفاوت‌ بين‌ 40 و 000/40 بيت‌ رقمي‌ نيست‌ كه‌ به‌ سادگي‌ قابل‌ اغماض‌ باشد. البته‌ براي‌ صرفه‌جويي‌ در حافظه‌ بايد اين‌ انبوه‌ اطلاعات‌ را به‌ نحوي‌ فشرده‌ كنند. اين‌ كار با روشي‌ كه‌ ال‌­پي­‌سي‌ (LPC= linear predictive coding) ناميده‌ مي‌شود انجام‌ مي‌گيرد.

خلاصه بحث

همانگونه‌ كه‌ اندام‌هاي‌ گويايي‌ و، هماهنگ‌ با آنها، دستگاه‌ عصبي‌ ما براي‌ توليد صداهاي‌ زبان‌ تكامل‌ يافته‌اند، همانگونه‌ نيز دستگاه‌ شنوايي‌ ما براي‌ دريافت‌ و تشخيص‌ صداهاي‌ زبان‌ تكامل‌ يافته‌ و مجهز شده‌ است‌. شواهد موجود بعضي‌ از دانشمندان‌ را به‌ اين‌ نظريه‌ سوق‌ داده‌ است‌ كه‌ دستگاه‌ شنوايي‌ ما صداهاي‌ زبان‌ را به‌ نحوي‌ متفاوت‌ از صداهاي‌ ديگر پردازش‌ مي‌كند؛ يا به‌ بيان‌ دقيق‌تر، بخشي‌ از مغز انسان‌ بالغ‌ براي‌ پردازش‌ صداهاي‌ زبان‌ تخصصي‌ شده‌ است‌. هنگام‌ تلفظ‌، يا توليد گفتار، صداهاي‌ زبان‌ منفك‌ و مجزا از يكديگر تلفظ‌ نمي‌شوند، بلکه در زنجيرة‌ گفتار روي‌ خواص‌ آكوستيكي‌ يكديگر اثر مي‌گذارند. شواهدي‌ ارائه‌ شد كه‌ بر اين‌ دلالت‌ داشت‌ كه‌ دستگاه‌ شنوايي‌ ما طوري‌ سازمان‌ يافته‌ است‌ كه‌ به‌ اين‌ ردّ صوتي‌ كه‌ صداهاي‌ زبان‌ بر يكديگر مي‌گذارند بسيار حساس‌ است‌ و همين‌ حساسيت‌ باعث‌ سهولت‌ و سرعت‌ در پردازش‌ زنجيرة‌ گفتار مي‌گردد، در حالي‌ كه‌ همين‌ ويژگي‌، يعني‌ درهم‌ تنيده‌ شدن‌ صداها در هنگام‌ توليد، يكي‌ از موانع‌ بزرگ‌ در راه‌ «شناخت‌ گفتار» به‌وسيلة‌ كامپيوتراست‌. همچنين‌ شواهدي‌ ارائه‌ شد كه‌ بر اين‌ دلالت‌ داشت‌ كه‌ هجا كوچكترين‌ واحدِ ادراك‌ گفتار است‌.