Перейти к содержимому
UzScite
  • НСИ
    • Новости События
    • Методическая информация
    • Нормативные документы
  • Каталог журналов
  • Указатель авторов
  • Список организаций

Нуткни автоматик таниб олиш муаммолари ва ечимлари

Маматов Н.С.

Юлдошев Ю.Ш.

Абдуллаев Ш.Ш.

Вестник ТУИТ

  • № 4 (52) 2019

Страницы: 

105

 – 

118

Язык: узбекский

Открыть файл статьи
Открыть страницу статьи в Интернет

Аннотация

В последние годы наблюдается существенное развитие в автоматическом распознавании речи и достигаются больших успехов. Но возможности существующих средств автоматического распознавания речи намного ограничены чем человеческие возможности. Например, человек без никаких затруднений легко распознаёт удалённую, некачественную или шумную, а также акцентную речь. Кроме того, человек имеет возможность распознавания спонтанной речи и определённого голоса диктора среди множества голосов. Такие человеческие возможности, особенно последние, создают много проблем при создании современных систем распознавания речи. А существующие системы автоматического распознавания речи являются преимущественным чем человек при распознавании выделенных команд и чисел.Существующие системы распознавания речи связаны с усовершенствованием нейро-сетевых структур, обеспечением различных обратных связей и разработкой новых методов обучения, где целесообразно применение разработок из области семантики, в которых можно выделить смысловую часть состава речи и использование их возможностей.В статье приведены короткий обзор в настоящее время широко применяемых приложений автоматического распознавания речи, их особенности, основные этапы их развития. А также рассмотрен метод решения задачи распознавания речи на основе Марковских цепей, сравнительный анализ подходов и методов моделирования контексосвязанных трифонов и бифонов при решении проблемы коартикуляция и адаптация моделей, показаны роли разработки систем, обеспечивающих инвариантность аддитивных шумов и каналов связи, нормализация признаков дикторонезависимых систем. Для разработки эффективной системы автоматического распознавания речи предложен метод глубоких и рекуррентных нейронных сетей. Отмечено сходство глубоких (многослойных) нейронных сетей с биологическими системами. В заключении описаны проблемы и недостатки современных систем распознавания речи и дано предложение их развития.

Сунгги йилларда нуткни автоматик таниб олишда сезиларли ривожланишлар кузатилиб, куплар ютукларга эришмокда. Бирок, нуткни автоматик таниб олишнинг мавжуд воситалари инсон имкониятларига нисбатан анча чегаралангандир. Масалан, инсон узокдаги нуткни, сифатсиз узатилган ёки шовкинга эга хамда акцентли нуткни кийинчиликсиз таниб олади. Бундан ташкари инсон куплаб овозлар орасидан маълум сухандон ва унинг нуткини ажратиб олиш ва спонтан нуткни таниб олиш имкониятига хам эга. Инсоннинг бундай имкониятларидан айникса, сунглари нуткни таниб олишнинг замонавий тизимларини яратишда куплаб муаммоларни келтириб чикаради. Нуткни автоматик таниб олишнинг мавжуд тизимлари эса факатгина ажратилган буйруклар ёки сонларни таниб олишда инсондан устун булиб келмокда. Нуткни таниб олишнинг мавжуд тизимлари нейрон тармоклар структураларини мукаммаллаштириш, улардаги турли даражадали тескари алокаларни таъминлаш ва укитишни янги усулларини ишлаб чикиш билан боплик булиб, унда нутк таркибининг маъноли кисмини колдирувчи семантика сохасидаги ишланмаларни куллаш хамда уларни имкониятларидан фойдаланиш максадга мувофик булади.Мазкур маколада нуткни автоматик таниб олишнихозирги кунда кенг кулланилаётган иловаларининг кискача тавсифлари, узига хос хусусиятлари, ривожланишининг асосий боскичлари келтирилган булиб, унда ушбу масалани ечиш учун Марков занжирлари асосида нуткни таниб олиш усули куриб чикилган. Бундан ташкари, нуткни таниб олиш масаласини ечишга каратилган ёндашувларнинг киёсий тахлили хамда коартикуляция муаммосини ечишда контекстга бог.лик трифонлар ва бифонларни моделлаштириш йулларихамдамоделларни адаптация килиш, белгиларни нормаллаштиришнинг сухандонга бог.лик булмаган, алока канали ва аддитив халакитларга инвариантлик таъминланган тизимларни ишлаб чикишдаги роли курсатилган. Нуткни автоматик таниб олиш самарадор тизимларини ишлаб чикиш усули сифатида чукур нейрон тармоклар ва рекуррент нейрон тармоклари келтирилган. Купкатламли нейрон тармокларнинг биологик тизимлар билан ухшашлиги асослаб берилган. Хулосада нуткни таниб олишнинг замонавий тизимлари муаммо ва камчиликлари баён этилиб, ривожлантириш учун тавсиялар келтирилган.

In recent years, there has been a significant development in automatic speech recognition and great success has been achieved. But the capabilities of existing automatic speech recognition tools are much more limited than human capabilities. For example, a person without any difficulties easily recognizes remote, substandard or noisy, as well as accent speech. In addition, a person has the ability to recognize spontaneous speech and a certain voice announcer among many voices. Such human capabilities, especially the latter, create many problems when creating modern speech recognition systems. And existing systems of automatic speech recognition are predominant than a person in recognizing selected commands and numbers.Existing speech recognition systems are associated with the improvement of neural network structures, the provision of various feedbacks and the development of new teaching methods, where it is advisable to use developments from the field of semantics in which the semantic part of speech composition and the use of their capabilities can be distinguished.The article provides a brief overview of currently widely used automatic speech recognition applications, their features, the main stages of their development. We also considered a method for solving the speech recognition problem based on Markov chains, a comparative analysis of approaches and methods for modeling context-related triphons and biphons in solving the problem of co-articulation and adaptation of models; For the development of an effective automatic speech recognition system, a method of deep and recurrent neural networks has been proposed. The similarity of deep (multilayer) neural networks with biological systems is noted. In conclusion, the problems and shortcomings of modern speech recognition systems are described and a proposal for their development is given.

Список использованных источников

  1. Levin K., Ponomareva I., Bulusheva A., Chernykh G., Medennikov I., Merkin N., Prudnikov A., Tomashenko N. Automated closed captioning for Russian live broadcasting // Proceedings of the Annual Conference of the International Speech Communication Association INTERSPEECH. Singapore, 2014. P. 1438-1442.
  2. Terry K. Instant patient records and all you have to do is talk // Medical Economics. 1999. V. 76. N 19. P. 101-102, 107-108, 111-112.
  3. Huang X., Acero A., Hon H.-W. Spoken Language Processing. Prentice Hall, 2001. 1008 p.
  4. The HTK book [Электронный ресурс]. Cambridge University Engineering Department. Режимдоступа: http://speech.ee.ntu.edu.tw/homework/DSP_HW2-1/htkbook.pdf, свободный. Яз. англ. (дата обращения 22.10.2015).
  5. Baker J.K. The dragon system - an overview // IEEE Transactions on Acoustics, Speech, and Signal Processing. 1975. V. ASSP 23. N 1. P. 24-29.
  6. Rabiner L.R. A tutorial on hidden Markov models and selected applications in speech recognition // Proceedings of the IEEE. 1989. V. 77. N 2.P. 257-286. doi: 10.1109/5.18626
  7. Ramesh P., Wilpon J.G. Modeling state durations in hidden Markov models for automatic speech recognition // IEEE Transactions on Acoustics, Speech, and Signal Processing (ICASSP-92). San Francisco, USA, 1992. V. 1. P. 381-384.
  8. Shafran I., Ostendorf M. Use of higher level linguistic structure in acoustic modeling for speech recognition // Proc. IEEE Int. Conf. on Acoustic Signal and Speech Processing. Istanbul, Turkey, 2000. V. 2. P. 1021-1024.
  9. Digalakis V., Murveit H. Genones: optimizing the degree of mixture tying in a large vocabulary hidden Markov model-based speech recognizer // Proc. IEEE Int. Conf. on Acoustics, Speech, and Signal Processing (ICASSP). Adelaide, South Australia, 1994. V. 1. P. 537-540.
  10. Hain T., Woodland P.C., Niesler T.R., Whittacker E.W.D. 1998 HTK system for transcription of conversational telephone speech // Proc. Int. Conf. on Acoustics, Speech and Signal Processing.1999,V. 1. P. 57-60.
  11. Leggetter C.J., Woodland P.C. Maximum likelihood linear regression for speaker adaptation of continuous density hidden Markov models // Computer Speech and Language. 1995. V.9.N2.P.171-185. doi: 10.1006/csla.1995.0010
  12. Kuhn R., Junqua J.-C., Nguen P., Niedzielski N. Rapid speaker adaptation in eigenvoice space // IEEE Transactions on Speech and Audio Processing. 2000.V.8.N6.P.695-706.doi: 10.1109/89.876308
  13. Bourlard H., Hermansky H., Morgan N. Towards increasing speech recognition error rates // Speech Communication. 1996. V. 18. N 3. P. 205-231. doi: 10.1016/0167-6393(96)00003-9
  14. Hornik K., Stinchcombe M., White H. Multilayer feedforward networks are universal approximators // Neural Networks. 1989. V. 2. N 5. P. 359-366. doi:10.1016/0893-6080(89)90020-8
  15. Hinton G., Deng L., Yu D., Dahl G., Mohamed A.-R., Jaitly N., Senior A., Vanhoucke V., Nguyen P., Sainath T., Kingsbury B. Deep neural networks for acoustic modeling in speech recognition: the shared views of four research groups // IEEE Signal Processing Magazine. 2012.V.29.N6.P.82-97. doi:10.1109/MSP.2012.2205597
  16. Hermansky H., Ellis D., Sharma S. Tandem connectionist feature extraction for conventional HMM systems // Proc. IEEE Int. Conf. on Acoustics, Speech and Signal Processing (ICASSP). Istanbul, Turkey, 2000.V.3.P.1635-1638.
  17. Robinson A.J. An application of recurrent nets to phone probability estimation // IEEE Transactions on Neural Networks.1994.V.5.N2.P.298-305.doi:10.1109/72.279192
  18. Robinson T., Hochberg M., Renals S. The use of recurrent neural networks in continuous speech recognition / In: Automatic Speech and Speaker Recognition. Advanced Topics / Eds. C.H. Lee, F.K. Soong, K. Paliwal. Kluwer Academic Publishers, 1996. 518 p. doi:10.1007/978-1-4613-1367-0
  19. Triefenbach F., Demuynck K., Martens J.-P. Large vocabulary continuous speech recognition with reservoir-based acoustic models // IEEE Signal Processing Letters. 2014. V. 21. N. 3. P. 311-315. doi: 10.1109/LSP.2014.2302080

Список всех публикаций, цитирующих данную статью

Copyright © 2025 UzScite | E-LINE PRESS