Sprechererkennung

Die Sprechererkennung gehört zum Zweig der künstlichen Intelligenz und ist die automatische Identifizierung einer Person durch ihre Stimme. In der Lage zu unterscheiden, ein Sprecher des anderen ist vor allem auf physiologische Eigenschaften und den Sprachgewohnheiten der jeweils zusammen. Die Anerkennung führt Audio-Verarbeitung, um diese Reihe von Features innewohnenden an den Lautsprecher und die anschließende Suche nach möglichen Übereinstimmungen durch einen Prozess der Mustererkennung zu extrahieren.


Systemarchitektur

Sprechererkennungssystem besteht aus zwei Teilen: Ausbildung und Prüfung. Trotz teilen eine ähnliche Struktur wie die Module, aus denen sich eine ausgeprägte Funktion.

  • Das Training Abschnitt soll Lautsprecher über ein Mikrofon aufzeichnen, um ihre Eigenschaften zu extrahieren und sie in der Datenbank.
  • Der Test Abschnitt konzentriert sich auf Registrierung eines Lautsprechers und Extrakt Funktionen für den Vergleich mit denen, die in der Datenbank gespeichert sind. Schließlich, nach Erhalt mögliche Treffer, das System hat Broadcaster anfällig sein wollte.


Datenerfassung

Die Datenerfassung ist für beide Schulungen auf die Probe. Rundfunkanstalten, das System einzuführen, erfordert einen elektroakustischen Wandler nach Wort breitet sich in Wellen und auf Merkmale extrahieren, ist notwendig, um den Schalldruck in einem elektrisches Signal umzuwandeln, so dass wir mit dem Scannen fortfahren kann.

Mikrofontyp sollte Frequenz von Abtastung und Quantisierung in der Erfassung der Audiodurchgeführt, um die Bandbreite des Sprach und seine Eigenschaften angepasst werden. Es ist außerhalb der Lautsprecher wie der Wahl der obigen Parameter Faktoren das SNR der aufgenommenen Proben oder die Verwendung von Mikrophonen mit verschiedener Frequenzgangkurven, die das Ergebnis negativ beeinflussen können.

Merkmalsextraktion

Einmal digitalisiert wird das Audio verarbeitet, um die Liste der ausgewählten Merkmale, die Audio-Deskriptoren genannt werden zu extrahieren. Diese Deskriptoren enthalten, die die akustischen Eigenschaften des Signals Klassierer verwendet, um die Liste in der Datenbank gespeicherten zu vergleichen. Analysieren Eigenschaften können unterschiedlich sein, aber sind in der Regel aufgrund der Natur der Quelle verwendet Audio Deskriptoren niedrigen Pegel. Diese Deskriptoren haben einen niedrigen Abstraktionsebene und einfach beschreiben, spektrale, parametrische und zeitlichen Eigenschaften des Audiosignals.

Um die Eigenschaften der Deskriptoren entsprechenden Audiodateien Metadaten, Daten über Daten verwendet zu assoziieren. Eines der für diese Aufgabe verwendet Standards ist die MPEG-7 Standard, der dem Management dieser Metadaten ermöglicht und erleichtert so den Zugriff auf diese Informationen zum Zeitpunkt der Suche.

Klassifikation

Der Klassifizierer Modul hat Zugriff auf sowohl die Ausbildung als Teil des Tests. Dieses Modul stellt eine Brücke zwischen den beiden verantwortlich für den Vergleich der Merkmalsvektoren, um Fotos suchen Sprechermodelle Teile-Datenbank enthält. Seine Aufgabe ist es, Rechenspiele und extrahiert Ergebnis Wahrscheinlichkeiten der Lautsprecher in der Datenbank, die gesucht werden können zu finden. Die Entscheidung kann unterschiedlich sein in Abhängigkeit von der Systemkonfiguration.

Geschlossenes System

Ein geschlossenes System nimmt den Lautsprecher identifiziert wird bereits in der Datenbank gespeichert werden. Der Ansager am ehesten die Klassifizierer, die mehr Funktionen mit dem Lautsprecher zu schauen teilt verlassen, ist die resultierende Ausgabe des Systems.

Öffnen Sie die System

Ein offenes System ist komplexer, da die zu identifizierenden Sprecher ist nicht notwendigerweise in der Datenbank. Der Klassifikator sollten nicht nur die höchste Wahrscheinlichkeit, es muss auch festzustellen, ob die Ähnlichkeit ist ausreichend positiv, um zu geben. Wenn die Chancen eines Sprechermodells werden als ausreichend angesehen, um eine Übereinstimmung der Kandidat als Ergebnis der Suche wird vorgestellt machen, ansonsten ist der Ausgang "unbekannten Sprecher".


Anwendungen

Der verantwortungsvolle Entwicklung der Technologien, um eine Person automatisch zu erkennen durch seine Stimme hat ein wachsendes Interesse in den letzten Jahren wegen seiner vielen Anwendungen erlebt.

Farrus, Mireia. "Fusing akustische und prosodische Information zur Sprechererkennung." Thesis.


Identifizierung und Authentifizierung

  • Die Sprechererkennung ist, um seine Identität zu finden. Da der Lautsprecher Blick kann in der Datenbank registriert sein oder nicht sein, wird häufig verwendet, ein offenes System, sollte es nicht in der Datenbank Identifikations sein wäre nicht möglich, und der Lautsprecher sollte als unbekannt werden.
  • Im Falle eines geschlossenen Systems Authentifizierungs es verwendet wird, da in diesem Fall der Lautsprecher gibt seine Identität zu verifizieren ist es nötig, die in der Datenbank gespeicherten Sprachmodell zugreifen. Es gibt zwei mögliche Lösungen für dieses System, die Entsprechung zwischen dem Lautsprecher und der behauptet, Korrespondenz oder nicht.

Abhängig oder unabhängig von dem Text

  • Text-abhängige Systeme verwenden die gleiche Wort oder einen Satz sowohl im Training als Teil des Tests. Diese Worte sind in der Regel privaten Passwörter in Sicherheitsanwendungen.
  • Text unabhängige Systeme sind auf keinem Wort oder eine Phrase insbesondere auf der Basis und keine Zusammenarbeit aus dem Lautsprecher zu schauen müssen, denn seine Stimme ist genug. Diese Systeme werden oft in Bereichen der forensischen oder gerichtlichen Untersuchung verwendet, um alle Lautsprecher zu identifizieren oder zu verifizieren Identität.


  0   0
Vorherige Artikel Paseo de la Libertad
Nächster Artikel Churn

Kommentare - 0

Keine Kommentare

Fügen Sie einen Kommentar

smile smile smile smile smile smile smile smile
smile smile smile smile smile smile smile smile
smile smile smile smile smile smile smile smile
smile smile smile smile
Zeichen übrig: 3000
captcha