ادراک گفتار/ دکتر محمدرضا باطنی
در آواشناسي، هنگام بحث از صداهاي زبان، گفته ميشود كه صداهاي زبان به وسيلة اندامهاي گويايي (مانند تارهاي صوتي، لبها و غيره) توليد ميشوند. ولي بايد به ياد داشته باشيم كه واقعيّت امر چنين نيست. توضيح اينكه اندامهاي گويايي ما صدا توليد نميكنند، بلكه ذرات هوا را طبق الگوهاي خاصي به هم ميزنند، يا به بيان دقيقتر، در آنها ايجاد ارتعاش ميكنند. اين ارتعاشها، محرك صوت هستند، نه خود صوت. ادراك صوت، ويژگي دستگاه شنوايي ما است، بدين معني كه دستگاه شنوايي ما آنچنان ساخته شده و سازمان يافته است كه اين ارتعاشها را به صورت صوت ادراك ميكند، وگرنه در جهان خارج صوت يا صدا وجود ندارد. آنچه وجود دارد تموّج انرژي در ذرات هواست. با اين همه، ما ميتوانيم همچنان از توليد صدا به وسيلة اندامهاي گويايي صحبت كنيم به شرط اينكه فراموش نكنيم كه اين كار متّكي بر نوعي تسامح است، تسامحي كه كار ما را در بحث از صداهاي زبان آسان ميسازد. يك هشدار ديگر را نيز نميتوان ناديده گرفت: اگر ادراك صوت، و از جمله صداهاي زبان، ناشي از ويژگي يا ويژگيهاي دستگاه شنوايي ما است، پس هنگام بحث از صداهاي زبان، و در سطحي بالاتر، هنگام بحث از زنجيرة گفتار، نميتوان از توجه به ساخت و كار اين دستگاه بهكلي غافل بود.
بسياري از درسخواندهها، تحت تأثير آشنايي خود با خط و نوشته، چنين ميپندارند كه صداهاي زبان در هنگام گفتار، همانند حروف در نوشتار، يكي پس از ديگري ادا ميشوند، بدين معني كه اندامهاي گويايي نخست صدايي را تلفظ ميكنند و پس از فراغت يافتن از آن به تلفظ صداهاي دوم و سوم ميپردازند و اين كار را تا پايان زنجيرة گفتار ادامه ميدهند، به طوري كه هر صدا منفك و مجزا از صداي قبل و بعد آن قابل تميز و تشخيص است. اين تصور به كلي نادرست است: صداهاي زبان در زنجيرة گفتار نه چنين تلفظ ميشوند و نه دستگاه شنوايي ما آنها را به اين صورت ادراك ميكند.
اندامهاي گفتار را به رقاص ماهري تشبيه كردهاند كه در همان حال كه مشغول انجام دادن حركتي است خود را براي حركت بعدي آماده ميكند و از اينرو حركات او موزون و همآهنگ جلوه ميكند. وقتي به تلفظ صداهاي زبان توجه ميكنيم ميبينيم كه اين تشبيه چندان بيمورد نيست. فرض كنيد كه ما ميخواهيم واژة تكهجايي «بيد» را تلفظ كنيم. اولين صداي اين كلمه /b/، دومين صداي آن /i/ و صداي پاياني آن نيز /d/ است. براي تلفظ /b/ بايد دو لب نخست بسته و سپس باز شوند و براي تلفظ /i/ نيز زبان بايد در وضع خاصي قرار گيرد. آنچه مسلم است ما اين دو عمل را مجزا و منفك از يكديگر انجام نميدهيم، بلكه آنها را تواماً انجام ميدهيم، بدين معني كه در همان هنگام كه لبها را براي تلفظ /b/ ميبنديم زبان را نيز در وضعي قرار ميدهيم كه تلفظ /i/ ايجاب ميكند. نتيجة اين كار اين است كه تقريباً همزمان با گشوده شدن لبها و رها شدن هوايي كه در پشت آنها فشرده شده تلفظ /i/ نيز آغاز شده است. اين بدان معنا است كه اساساً مرزي وجود ندارد كه بتوان گفت در اينجا تلفظ /b/ پايان مييابد و تلفظ /i/ آغاز ميشود. حاصل اين درهمتنيدگي اين است كه مقداري از اطلاعات آكوستيكي كه براي شناسايي /b/ لازم است در درون /i/ و مقداري از اطلاعات آكوستيكي كه براي شناسايي /i/ لازم است در درون /b/ قرار ميگيرد، يا به زبان غيرفني، رد پاي /b/ در /i/ و رد پاي /i/ در /b/ نمايان ميگردد. همين وضع نيز در مورد صداي پاياني كلمه يعني /d/ پيش ميآيد. در اينجا نيز پيش از آنكه تلفظ /i/ پايان يابد، محفظة دهان براي تلفظ /d/ آماده ميشود، بهطوريكه بخشي از تلفظ /d/ با /i/ همزمان ميگردد. در اينجا نيز مرز مشخصي وجود ندارد كه بتوان گفت تلفظ /i/ در اينجا پايان يافته و تلفظ /d/ آغاز شده است. در واقع كلمة «بيد» در تلفظ، از يك زنجيرة آوايي به هم تنيده و تجزيهناپذير تشكيل شده است. تجزيه و تحليل آزمايشگاهي گفتار نيز مشاهدات بالا را تأييد ميكند. طيفنگاشتهاي صوتي نشان ميدهند كه ويژگيهاي آكوستيكي صداهاي زبان در زنجيرة گفتار در قلمرو يكديگر وارد ميشوند و روي هم به شدت تأثير ميگذارند.
دکتر محمدرضا باطنی( عکس از ستاره سلیمانی)
بد نيست به مثالي از نوع ديگر توجه كنيم. اين بار تلفظ دو كلمة تكهجايي «كي» /ki/ و «كو» /ku/ را مقايسه ميكنيم. در سطح واجشناسي ميتوان گفت كه اين دو كلمه هر دو با صامت /k/ آغاز ميشوند و با دو مصوت متفاوت پايان مييابند. واجنويسي آنها نيز به همين صورت خواهد بود. ولي هنگام تلفظ، كيفيّت آكوستيكي /k/ در آغاز «كي» با كيفيّت آكوستيكي /k/ در آغاز «كو» تقريباً همان اندازه متفاوت است كه كيفيّت آكوستيكي مصوتهايي كه به دنبال آنها ميآيند. براي تلفظ /k/ در هر دو مورد عقب زبان بالا ميآيد و به نرمكام ميچسبد و راه خروج هوا را سد ميكند و در نتيجه، هوا در پشت اين مانع انباشته ميشود. ولي در مورد «كي» همزمان با متراكم شدن هوا در پشت اين مانع، حفرة دهان خود را براي تلفظ /i/ آماده ميكند، در حالي كه در مورد «كو» حفرة دهان براي تلفظ /u/ آماده ميشود. در نتيجه، هوايي كه در پشت زبان متراكم شده در دو محفظة تشديد كه شكل متفاوتي دارند تخليه ميشود و همين باعث ميشود كه صداي انفجار خفيفي كه از رها شدن هوا ايجاد ميشود هر بار كيفيّت آكوستيكي متفاوتي پيدا كند و دو صداي متفاوت با دو /k/ متفاوت توليد شود. پاسخ اين سؤال كه پس چرا ما فقط يك صداي /k/ ميشنويم ديگر به توليد گفتار مربوط نميشود بلكه به ادراك گفتار مربوط ميشود. در اين مورد، پاسخ سؤال اين است: چون تفاوت آكوستيكي ميان دو صداي /k/ در نظام آوايي (يا فونولوژي) زبان ما نقشي به عهده ندارد دستگاه شنوايي ما نسبت به تفاوت آنها بياعتنا است و در نتيجه، آن دو صداي متفاوت يك صدا ادراك ميشوند.
شواهد زيادي در دست است كه نشان ميدهند دستگاههاي گفتار و شنيدار ما با يكديگر سخت همآهنگ شدهاند. از مطالعات آزمايشگاهي كه روي ادراك گفتار صورت گرفته چنين برميآيد كه دستگاه شنوايي ما نسبت به رد پايي كه صداهاي زبان روي يكديگر ميگذارند بسيار حساس است، تا جايي كه به كمك همين تأثيرات آكوستيكي جانبي است كه ميتواند صداهاي زبان را در زنجيرة گفتار از هم باز شناسد. بنابراين، درهمتنيدگي صداهاي گفتار نه تنها مانعي در راه شناسايي و ادراك صداها نيست، بلكه خود كمكي در اين راه است. مثلاً از شواهد آزمايشگاهي چنين برميآيد كه صامتهاي انسدادي و واكبر/g,d,b/ تنها از روي تأثيري كه روي مصوت بعد از خود ميگذارند شناخته و ادراك ميشوند. اگر سه هجاي gâ, dâ, bâ را در نظر بگيريم مشاهده ميشود كه وجود /g, d, b/ در آغاز هجا، روي فورمان دوم مصوت /â/ اثر ميگذارد، به اين نحو كه آغاز فورمان دوم پس از /b/ رو به بالا خيز برميدارد، پس از /d/ تغيير محسوسي نميكند يا خيزشي اندك نشان ميدهد، ولي پس از /g/ به شدت فرو ميافتد. با دستكاريهاي آزمايشگاهي ميتوان اين سه آغاز متفاوت را بريد و جداگانه به آنها گوش داد. در اين صورت ديگر صداي /g, d, b/ شنيده نميشود، بلكه صداهاي غيرزباني شنيده ميشود كه زير و بمي آنها نسبت به هم تغيير ميكند. ولي پس از اينكه اين قطعاتِ بريده شده در جاي خود قرار گيرند دوباره هجاهاي gâ, dâ, bâ شنيده ميشوند. شواهدي از اين دست، دانشمندان گفتارشناس را به سوي اين نظريه كشانده است كه كوچكترين واحد ادراك گفتار هجا است و نه صداهاي منفرد.
دلايل و شواهد ديگري نيز در جهت تأييد اين نظريه ارائه شدهاند. مثلاً محاسبه شده كه در گفتار عادي، ما در ثانيه 25 تا 30 صدا را دريافت و ادراك ميكنيم. حال اگر اين تعداد صدا بدون هيچگونه همپوشاني زنجيروار به دنبال هم قرار گيرند و به گوش ما رسانده شوند، ديگر گوش ما گفتار نخواهد شنيد، بلكه يك صداي واحد «ويز» مانند خواهد شنيد، زيرا دستگاه شنوايي ما توانايي اين را ندارد كه مرز اين تعداد صدا در ثانيه را تشخيص دهد و در نتيجه ما آنها را يكپارچه و به صورت صداي واحدي ميشنويم، همانگونه كه دستگاه بينايي ما هم توانايي اين را ندارد كه بين اين تعداد تصوير متفاوت در ثانيه تمايز قايل شود و در نتيجه آنها را به صورت يك تصوير پيوسته ادراك ميكند. اگر ما ميتوانيم 25 تا 30 صداي گفتار را در ثانيه ادراك كنيم و بين آنها تمايز بگذاريم به اين دليل است كه صداهاي گفتار همپوشاني دارند و به صورت بستههايي كه هر يك يك هجا هستند به گوش عرضه ميشوند. بنابراين، معيار اندازهگيري قدرت پردازش دستگاه شنوايي ما تعداد صداهايي نيست كه در مدتي معين، مثلاً يك ثانيه، دريافت ميشوند بلكه تعداد هجاهايي است كه در اين مدت ميتوانند ادراك شوند. علاوه بر شواهد آزمايشگاهي، شواهد رفتاري نيز ميتوان در تأييد اين نظريه ارائه كرد. ديده ميشود كه كودكان شش ساله در كلاس اول دبستان به سختي ميتوانند بفهمند كه يك كلمه از چند صدا تركيب شده است، در حاليكه با اندكي راهنمايي ميتوانند كلمه را به هجاهاي سازندة آن بخش كنند. همچنين افراد بيسواد نميتوانند بگويند يك كلمه از چند صدا تشكيل شده است، ولي با اندكي آموزش ميتوانند از عهدة تقطيعِ هجايي كلمات برآيند، بدون اينكه بتوانند عمل خود را توجيه كنند. اين شواهد همه بر اين دلالت دارند كه دستگاه شنوايي ما طوري ساخته شده كه ميتواند هجاهاي زبان را به آساني ادراك كند، در حالي كه ادراك صداهاي مجزاي زبان براي آن دشوار و گاهي غيرممكن است.
پژوهشهاي اخير دربارة ادراك گفتار ما را از اين نيز فراتر ميبرند. گفته ميشود كه دستگاه شنوايي انسان طوري تكامل يافته كه نهتنها صداهاي گفتار را از صداهاي ديگر تشخيص ميدهد، بلكه آنها را در قسمتهاي مختلف مغز پردازش ميكند. پيش از آنكه به ذكر آزمايش جالبي كه در جهت تأييد اين نظريه صورت گرفته بپردازيم بايد دو نكته را يادآور شويم. يكي اينكه امروز بين اهل فن قبول عام يافته كه مراكز توليد و ادراك گفتار در اكثريت قريب به اتفاق مردم در نيمكرة چپ مغز قرار گرفته است. ديگر اينكه رشتههاي عصب شنوايي از هر گوش به هر دو نيمكرة مغز ميروند، ولي تعداد رشتههاي عصبي كه از گوش راست به نيمكرة چپ ميروند بسيار بيشتر از رشتههاي عصبي است كه از گوش راست به نيمكرة راست ميروند؛ همچنين تعداد رشتههاي عصبي كه از گوش چپ به نيمكرة راست ميروند بسيار بيشتر از رشتههاي عصبي است كه از گوش چپ به نيمكرة چپ ميروند. در آزمايش مزبور، زوجهايي از هجاهاي بيمعنا و متفاوت، مانند ta و ga ، را انتخاب كردند و هر يك از دو هجاي يك جفت را بهطور همزمان به كمك دستگاه مخصوص در يكي از دو گوش وارد كردند. نتيجة آزمايش نشان داد كه هجاهايي كه درست تشخيص داده شدند بيشتر آنهايي بودند كه به گوش راست وارد شده بودند. تا اينجا نتيجة آزمايش همان چيزي بود كه از پيش انتظار ميرفت، زيرا تعداد رشتههاي عصبي كه از گوش راست به نيمكرة چپ، يعني مركز تكلّم، ميروند بسيار بيشتر است. ولي وقتي به جاي هجاهاي گفتار، ملوديهاي ساده يا نتهاي موسيقايي انتخاب شد و به همان نحو همزمان در دو گوش نواخته شد، نتيجه برعكس بود. اين بار نتهايي كه درست تشخيص داده شدند بيشتر آنهايي بودند كه در گوش چپ نواخته شده بودند. اين نتيجه، نشان داد كه صداهاي موسيقايي، برخلاف صداهاي گفتار، كلاً يا عمدتاً در نيمكرة راست پردازش ميشوند. از كل اين آزمايش ميتوان نتيجه گرفت كه دستگاه شنوايي انسان بين صداهاي گفتار و ديگر صداها تمايز قايل ميشود و آنها را در مراكز متفاوتي در مغز پردازش ميكند.
شواهد ديگري نيز عرضه شدهاند كه نشان ميدهند صداهاي گفتار صداهاي خاصي هستند و دستگاه شنوايي ما براي ادراك يا پردازش اين صداها از استراتژي خاصي استفاده ميكند. اين موقعي به خوبي آشكار ميشود كه سعي شود صداهاي غيرگفتاري را جانشين صداهاي گفتار كنند. يكي از اين موارد، تلاش براي ساختن دستگاهي است كه بتواند حروف چاپي را به صدا، ولي نه صداهاي گفتار، تبديل كند تا نابينايان به جاي ديدنِ نوشته صدا بشنوند. بيش از هفتاد سال از تاريخ اولين تلاش براي ساختن چنين دستگاهي ميگذرد، و در اين مدت الفباهاي صوتي متفاوتي مورد آزمايش قرار گرفتهاند. ولي در عمل معلوم شده كه هيچكدام از اينها به كارايي الفباي صوتي مورس نيستند. الفباي مورس، كه در مخابره تلگرافي به كار ميرود، صوتي است، ولي صداهاي آن صداهاي گفتار نيستند. به همين دليل مشاهده ميشود كه دستگاه شنوايي انسان پس از سالها آموزش و تمرين ميتواند صداهاي مورس را ادراك كند، آن هم با سرعتي كه به سختي به يكدهم سرعت ادراك گفتار ميرسد، در حاليكه صداهاي زبان بدون هيچگونه آموزش و تمريني به سهولت ادراك ميشوند.
مطالعاتي از اينگونه بعضي از دانشمندان گفتارشناس را بر آن داشته است كه ادعا كنند دستگاه شنوايي ما پردازشگر خاصي براي صداهاي گفتار دارد. اين پردازشگر ميتواند صداهاي گفتار را حتي در شرايط آكوستيكي نامساعد تشخيص دهد و ارتباط گفتاري را امكانپذير سازد. مطالعات آزمايشگاهي نشان داده است كه اگر انرژي موجود در صداهاي مخل به اندازة انرژي موجود در گفتار باشد مكالمه به راحتي صورت ميگيرد. اگر انرژي موجود در صداهاي مخل بر انرژي موجود در گفتار بيشي گيرد باز هم گفتار قابل درك است؛ تنها موقعي ادراك گفتار با اشكالِ جدي مواجه ميشود كه نسبت انرژي صداهاي مخل به انرژي گفتار به مرز چهار به يك برسد. دستكاريهاي آزمايشگاهي در خصوصيات آكوستيكي گفتار ممكن است طبيعي بودنِ گفتار را خدشهدار كنند يا بهكلي از بين ببرند، ولي الزاماً به ادراكپذيري آن لطمهاي وارد نميكنند. در واقع يكي از كشفهاي مهم اين بوده است كه طبيعي بودنِ گفتار و ادراكپذيري آن از يك مقوله نيستند. خصوصيات آكوستيكي كه به گفتار حالت طبيعي ميدهند متعدد و متنوعاند، ولي همة آنها براي ادراكِ گفتار ضروري نيستند. مثلاً طيفنگاشت صوتي نشان ميدهد كه مصوتها، سه و گاهي چهار فورمان دارند، ولي فقط فورمان اول و دوم براي ايجاد تمايز و ادراك مصوت كافي است. مصوتي كه داراي سه فورمان باشد طبيعيتر به گوش ميرسد، ولي حذف فورمان سوم تأثيري در ادراك مصوت ندارد. بنابراين، تا زماني كه مؤلفههاي آكوستيكي اساسي در گفتار محفوظ بمانند، گفتار قابل درك خواهد بود، و اين در حالي است كه به علت حذف مؤلفههاي جانبي، طنين آن ممكن است كاملاً غيرطبيعي شده باشد. همچنين مشاهده شده كه قطع و وصلهاي سريع در زنجيرة گفتار و نيز پژواك، گرچه آزارنده هستند، ولي در ادراك گفتار تأثير چنداني ندارند. دوبرابركردن يا نصفكردن سرعت گفتار نيز در ادراك آن بيتأثير است. شدت يا بلندي گفتار فقط تا جايي ضروري است كه گفتار را قابل شنيدن سازد؛ از اين حد كه بگذرد، افزايش شدت يا بلندي گفتار در ادراك آن بيتأثير خواهد بود.
يكي از زمينههايي كه به فهم ما از ادراك گفتار كمك كرده است تلاش براي مجهزكردن كامپيوتر به نرمافزاري است كه بتواند گفتار انسان را درك كند. در كامپيوترهاي معمولي كه فعلاً در دسترس هستند و مورد استفاده قرار ميگيرند، تماس انسان با كامپيوتر از راه صفحه كليد است. اين بدان معنا است كه درونداد از طريق نوشتار يا علائم نوشتاري به كامپيوتر داده ميشود و برونداد يا پاسخِ كامپيوتر نيز از طريق نوشتار يا علائم نوشتاري از كامپيوتر گرفته ميشود. هدف ايدهآل اين است كه صفحه كليد از ميان برداشته شود و انسان بتواند ارتباط گفتاري مستقيم با كامپيوتر برقرار كند. اين ارتباطِ گفتاري را نبايد با تماس تلفني اشتباه كرد. در تماس تلفني حداقل دو انسان شركت دارند و خط تلفن و دستگاههاي وابسته به آن مجراي انتقال پيام هستند، ولي در ارتباط گفتاري مستقيم با كامپيوتر، هدف اين است كه كامپيوتر نقش يكي از آن دو انسان را به عهده بگيرد. ارتباط گفتاري مستقيم با كامپيوتر بدين معنا است كه كاربر، به جاي استفاده از صفحه كليد، مستقيماً در ميكروفني كه به كامپيوتري متصل است صحبت كند و پاسخ خود را نيز بيواسطه از بلندگوي كامپيوتر بشنود. البته اين مانع از آن نيست كه يكي از دو قطب، گفتاري و ديگري نوشتاري باشد. مثلاً كاربر در ميكروفن كامپيوتر صحبت كند و از كامپيوتر بخواهد گفتههاي او را تايپ كند، كه در اين صورت درونداد گفتاري و برونداد نوشتاري است؛ يا برعكس متني نوشته به كامپيوتر داده شود و از آن خواسته شود كه متن را بخواند، كه در اين صورت درونداد نوشتاري و برونداد گفتاري است. به هر حال، ارتباط گفتاري با كامپيوتر پاي دو فرايند بسيار پيچيده را به ميان ميكشد: يكي شناخت گفتار (speech recognition) و ديگري تركيب گفتار (speech synthesis). شناخت گفتار مستلزم اين است كه كامپيوتر به نرمافزاري مجهز باشد كه به آن امكان دهد عناصر سازنده گفتار را شناسايي كند و پيام را از آنها بيرون بكشد، در حاليكه تركيب گفتار مستلزم آن است كه نرمافزار طوري ساخته شده باشد كه كامپيوتر بتواند مؤلفههاي آكوستيكي لازم را با هم تركيب كند و پاسخ خود را به صورت گفتار مصنوعي ارائه دهد. در اينجا مجال آن نيست كه به جنبههاي فنّي اين فرايندها پرداخته شود، ناچار فقط به نكاتي اشاره خواهد شد كه بتوانند پرتو تازهاي روي بحث اصلي ما، يعني ادراك گفتار بهوسيلة انسان، بيندازد.
از اين دو فرايند، تركيب گفتار سادهتر از شناخت گفتار از آب درآمده است، بهطوري كه امروز كامپيوتر ميتواند به صورت برونداد نوعي گفتار مصنوعي عرضه كند كه به گفتار طبيعي بسيار نزديك است و به همين دليل از لحاظ تجاري مورد قبول قرار گرفته و كاربردهايي پيدا كرده است، ولي در شناخت گفتار، كه قرينة ادراك گفتار در انسان است، پيشرفت چنداني حاصل نشده است. يكي از علل مهم اين ناكامي اين است كه زنجيرة گفتار را نميتوان به راحتي به صداهاي تركيبكنندة آن تقطيع كرد و واجهاي آن را شناسايي نمود، زيرا همانگونه كه قبلاً گفته شد، در هنگام تلفظ، صداهاي زبان درهم تنيده ميشوند بهطوري كه هر قطعه كوچكي از زنجيرة گفتار، حاوي اطلاعات آكوستيكي دربارة دو و گاهي سه واج است كه درهم فرو رفته و با هم همپوشاني يافتهاند. علاوه بر اين، تغييرات واجها در بافتهاي آوايي متفاوت، هويت آنها را دستخوش نوسان ميكند، و همين امر، كه براي دستگاه شنوايي انسان بسيار بياهميت و غيرقابل اعتنا است، يكي از موانع بزرگ در راه شناخت گفتار بهوسيلة كامپيوتر است. نخستين سيستمي كه براساس تقطيع واجي زنجيرة گفتار براي كامپيوتر طراحي شده در دهة 1950 بهوجود آمد، ولي ناتواني اين سيستم به زودي آشكار شد و به دست فراموشي سپرده شد. از آن زمان به بعد، اين رويكرد نسبت به شناخت گفتار بهكلي كنار گذارده شده است.
امروز سيستمهايي كه براي شناسايي گفتار طراحي ميشوند، از الگو (template) استفاده ميكنند، بدين معني كه ويژگيهاي اكوستيكي كل كلمه، و نه واجهاي سازنده آن، را به زبان رياضي در حافظة كامپيوتر نگهداري ميكنند. بعضي از سيستمها نيز هجا را به عنوان الگو انتخاب كردهاند. غرض ما از طرح اين مسأله تشريح چگونگي شناخت گفتار نيست، بلكه ميخواهيم نتيجهاي بگيريم كه گفتههاي قبلي در اين مقاله را تأييد ميكند: مهندسان كامپيوتر نيز به اين نتيجه رسيدهاند كه واجها يا صداهاي منفرد گفتار، واحد ادراك نيستند، بلكه كوچكترين واحد ادراكِ گفتار احتمالاً هجا است.
اكنون كه سخن به اينجا رسيد بد نيست مطلب ديگري را نيز يادآور شويم. امروز در ميان زبانشناسان و روانشناسان قبول عام يافته كه گفتار صورت طبيعيِ ارتباط در انسان است، در حالي كه نوشتار امري ثانوي و عرضي است. به همين دليل، توليد و ادراك گفتار براي انسان بسيار ساده است و فراگيري آن نيازي به آموزش ندارد. اما خط و نگارش را بايد یاد گرفت و يادگيري آن احتياج به سالها ممارست و تمرين دارد. اما وقتي به نحوة كار كامپيوتر نگاه ميكنيم وضع را كاملاً برعكس ميبينيم: شناخت نوشتار و كار كردن با نوشتار براي كامپيوتر بسيار آسانتر از گفتار است. شايد ذكر مثالي اين موضوع را روشنتر كند. نگهداري صورت نوشتاري كلمهاي كه از پنج حرف تركيب شده است، مثلاً كلمة «ميزان»، پنج بايت يا چهل بيت حافظة كامپيوتر را اشغال ميكند، در حاليكه نگهداري الگوي آوايي اين كلمه با كيفيّت متوسط به بيش از 000/20 بيت حافظه نياز دارد، و اگر قرار باشد با كيفيّت آكوستيكي عالي نگهداري شود به بيش از 000/40 بيت حافظه نياز خواهد داشت. تفاوت بين 40 و 000/40 بيت رقمي نيست كه به سادگي قابل اغماض باشد. البته براي صرفهجويي در حافظه بايد اين انبوه اطلاعات را به نحوي فشرده كنند. اين كار با روشي كه الپيسي (LPC= linear predictive coding) ناميده ميشود انجام ميگيرد.
خلاصه بحث
همانگونه كه اندامهاي گويايي و، هماهنگ با آنها، دستگاه عصبي ما براي توليد صداهاي زبان تكامل يافتهاند، همانگونه نيز دستگاه شنوايي ما براي دريافت و تشخيص صداهاي زبان تكامل يافته و مجهز شده است. شواهد موجود بعضي از دانشمندان را به اين نظريه سوق داده است كه دستگاه شنوايي ما صداهاي زبان را به نحوي متفاوت از صداهاي ديگر پردازش ميكند؛ يا به بيان دقيقتر، بخشي از مغز انسان بالغ براي پردازش صداهاي زبان تخصصي شده است. هنگام تلفظ، يا توليد گفتار، صداهاي زبان منفك و مجزا از يكديگر تلفظ نميشوند، بلکه در زنجيرة گفتار روي خواص آكوستيكي يكديگر اثر ميگذارند. شواهدي ارائه شد كه بر اين دلالت داشت كه دستگاه شنوايي ما طوري سازمان يافته است كه به اين ردّ صوتي كه صداهاي زبان بر يكديگر ميگذارند بسيار حساس است و همين حساسيت باعث سهولت و سرعت در پردازش زنجيرة گفتار ميگردد، در حالي كه همين ويژگي، يعني درهم تنيده شدن صداها در هنگام توليد، يكي از موانع بزرگ در راه «شناخت گفتار» بهوسيلة كامپيوتراست. همچنين شواهدي ارائه شد كه بر اين دلالت داشت كه هجا كوچكترين واحدِ ادراك گفتار است.