API Dokumentation - Response

Die Antwort ist immer im Json-Format und enthält neben dem analysierten Text und der Sprache des Textes pro angefragtem Service einen Antwortblock. Der Inhalt des Antwortblocks ist Service-spezifisch und enthält das eigentliche Analyse-Ergebnis für diesen Service. Er wurde hier zunächst weggelassen und wird für jeden Service weiter unten beschrieben.

Ein Beispiel für eine vollständige Antwort finden Sie im Abschnitt Überblick.

Antwortformat

  • {
    • text: "Angela Merkel wurde am 17. Juli 1954 in Hamburg als Angela Dorothea Kasner geboren.",
    • timestamp: 1400247994051,
    • language: "de",
    • entities: [
    • ]
    • lexiconEntities: [
    • ]
    • tags: [
    • ]
    • dates: [
    • ]
    • categories: [
    • ]
    • measures: [
    • ]
    • legals: [
    • ]
  • }

Hat ein Service den Text erfolgreich analysiert, aber keine Ergebnisse gefunden, so ist in der Antwort der Service-Block mit einer leeren Ergebnisliste enthalten. Tritt bei der Anfrage an einen einzelnen Service ein Fehler auf, dann antwortet die Neofonie Textmining API mit dem HTTP-Status 200 und dem üblichen Antwortformat, in dem dann allerdings dieser eine Service nicht enthalten ist. Nicht angefragte Services sind generell nicht in der Antwort enthalten.

Beschreibung der einzelnen Felder:

text Der analysierte Text. Falls eine URL angegeben wurde, ist hier der von der Webseite extrahierte Text enthalten, der die Grundlage der Analyse war. Wurde der Text direkt über den Text-Parameter angegeben, ist er unverändert hier wieder enthalten.
language Die für den Text erkannte Sprache, z.B. "de" oder "ru".
timestamp Der Zeitstempel der Antwort (in Millisekunden seit 1. Januar 1970).

Antwortformat: Entities

  • {
    • entities: [
      • {
        • confidence: 47.72833251953125,
        • relevance: 15.534404754638672,
        • surface: "Angela Merkel",
        • label: "Angela Merkel",
        • uri: "https://www.wikidata.org/wiki/Q567",
        • type: "PERSON",
        • start: 0,
        • end: 13
      • },
      • {
        • confidence: 39.60715866088867,
        • relevance: 14.97057819366455,
        • surface: "Hamburg",
        • label: "Hamburg",
        • uri: "https://www.wikidata.org/wiki/Q1055",
        • type: "PLACE",
        • start: 40,
        • end: 47
      • },
      • {
        • confidence: 100.0,
        • relevance: 17.836894989013672,
        • surface: "Angela Dorothea Kasner",
        • label: null,
        • uri: null,
        • type: "PERSON",
        • start: 52,
        • end: 74
      • }
    • ]
  • }

Beschreibung der einzelnen Felder:

label Das eindeutige Label der Entität.
surface Die Oberflächenform der Entität im Text.
type Der Typ der Entität. Mögliche Werte sind "PERSON", "PLACE", "ORGANISATION", "JOBTITLE", "WORK", "EVENT", "CONCEPT". Dieser wird heuristisch ermittelt und kann in Einzelfällen vom erwarteten Wert abweichen. Beispiel: Eine Stadt kann als Arbeitgeber fungieren und wird ggf. als Organisation eingestuft.
uri Die Wikidata URI der Entität. Kann nicht gesetzt sein, falls der Typ der Entität zwar erkannt wird, aber die Entität nicht bekannt.
confidence Konfidenzwert, repräsentiert die Sicherheit bei der Entitätserkennung. Ein höherer Wert steht für eine sicherere Erkennung. Der Konfidenzwert hat keine obere Grenze.
relevance Relevanzwert, repräsentiert die Relevanz der Entität für den Text. Ein höherer Wert steht für eine wichtigere Entität. Der Relevanzwert hat keine obere Grenze.
start Die Startposition der Entität im Text.
end Die Endposition der Entität im Text.

Antwortformat: Top Entities

  • {
    • topEntities: [
      • {
        • confidence: 717.3840942382812,
        • relevance: 40.1431999206543,
        • label: "Angela Merkel",
        • uri: "https://www.wikidata.org/wiki/Q567",
        • type: "PERSON",
        • matches: [
          • {
            • surface: "Angela Merkel",
            • start: 0,
            • end: 13
          • },
          • {
            • surface: "Merkel",
            • start: 89,
            • end: 95
          • },
          • {
            • surface: "Bundeskanzlerin",
            • start: 104,
            • end: 119
          • }
        • ]
      • },
      • {
        • confidence: 100.0,
        • relevance: 17.836894989013672,
        • label: "Angela Dorothea Kasner",
        • uri: null,
        • type: "PERSON",
        • matches: [
          • {
            • surface: "Angela Dorothea Kasner",
            • start: 52,
            • end: 74
          • }
        • ]
      • },
      • {
        • confidence: 39.51301193237305,
        • relevance: 14.95887279510498,
        • label: "Hamburg",
        • uri: "https://www.wikidata.org/wiki/Q1055",
        • type: "PLACE",
        • matches: [
          • {
            • surface: "Hamburg",
            • start: 40,
            • end: 47
          • }
        • ]
      • }
    • ]
  • }

Beschreibung der einzelnen Felder:

label Das eindeutige Label der Entität.
type Der Typ der Entität. Mögliche Werte sind "PERSON", "PLACE", "ORGANISATION", "JOBTITLE", "WORK", "EVENT", "CONCEPT". Dieser wird heuristisch ermittelt und kann in Einzelfällen vom erwarteten Wert abweichen. Beispiel: Eine Stadt kann als Arbeitgeber fungieren und wird ggf. als Organisation eingestuft.
uri Die Wikidata URI der Entität. Kann nicht gesetzt sein, falls der Typ der Entität zwar erkannt wird, aber die Entität nicht bekannt.
confidence Konfidenzwert, repräsentiert die Sicherheit bei der Entitätserkennung. Ein höherer Wert steht für eine sicherere Erkennung. Der Konfidenzwert hat keine obere Grenze.
relevance Relevanzwert, repräsentiert die Relevanz der Entität für den Text. Ein höherer Wert steht für eine wichtigere Entität. Der Relevanzwert hat keine obere Grenze.
matches Die Fundstellen der Entität im Text.
matches.surface Die Oberflächenform der Fundstelle im Text.
matches.start Die Startposition der Fundstelle im Text.
matches.end Die Endposition der Fundstelle im Text.

Antwortformat: Lexicon Entities

Basis für diese Entitäten ist ein in TXT Werk gepflegtes Lexicon. Im Gegensatz zu den auf Wikidata Basis ermittelten Entitäten findet hier keine Disambiguierung statt. Das Rückgabeformat ist bis auf den Namen des Antwortblocks 'lexiconEntities' identisch zu 'entities'.

Beschreibung der einzelnen Felder:

label Siehe entities.
surface Siehe entities.
type Der Typ der Entität. Mögliche Werte werden im Lexikon gepflegt und hängen von dessen Bearbeitungsstand ab.
uri Eine dieser Entität zugeordnete URI, typischerweise eine Id in einem externen System.
confidence Konfidenzwert, für diesen Service ohne Aussage und daher immer auf 1 gesetzt.
start Siehe entities.
end Siehe entities.

Antwortformat: Tags

  • {
    • tags: [
      • {
        • confidence: 0.9967904107197822,
        • term: "Angela Merkel"
      • },
      • {
        • confidence: 0.9927268430144784,
        • term: "Juli"
      • },
      • {
        • confidence: 0.9751561498425574,
        • term: "Hamburg"
      • },
      • {
        • confidence: 0.7406453816287002,
        • term: "Angela Dorothea Kasner"
      • }
    • ]
  • }

Beschreibung der einzelnen Felder:

term Das gefundene Schlagwort.
confidence Der Konfidenzwert des Schlagworts, immer zwischen 0 und 1.

Antwortformat: Dates

  • {
    • dates: [
      • {
        • dateEnd:
          • {
            • bc: false,
            • day: 17,
            • month: 7,
            • year: 1954
          • }
        • dateStart:
          • {
            • bc: false,
            • day: 17,
            • month: 7,
            • year: 1954
          • }
        • end: 36,
        • start: 23,
        • surface: "17. Juli 1954"
      • }
    • ]
  • }

Beschreibung der einzelnen Felder:

surface Die Oberflächenform des Datums im Text.
start Die Startposition des Datums im Text.
end Die Endposition des Datums im Text.
dateStart Das Startdatum. Ein Datum wird immer als Zeitraum repräsentiert, mit eventuell zusammenfallendem Start- und Enddatum.
dateEnd Das Enddatum.
day Der Tag des Start- bzw. Enddatums. Mögliche Werte sind 1-31.
month Der Monat des Start- bzw. Enddatums. Mögliche Werte sind 1-12.
year Das Jahr des Start- bzw. Enddatums.
bc Beschreibt, ob das Datum sich auf die Zeit vor Christus bezieht. Mögliche Werte sind true und false.

Antwortformat: Categories

  • {
    • categories: [
      • {
        • confidence: 0.9840945695370302,
        • label: "politik"
      • },
      • {
        • confidence: 0.010815793425103136,
        • label: "wirtschaft"
      • },
      • {
        • confidence: 0.005075348628913112,
        • label: "kultur"
      • },
      • {
        • confidence: 1.09702999767795e-05,
        • label: "sport"
      • },
      • {
        • confidence: 1.8793566199359706e-06,
        • label: "reisen"
      • },
      • {
        • confidence: 8.05313821392574e-07,
        • label: "wissenschaft"
      • },
      • {
        • confidence: 6.26958551045314e-07,
        • label: "internet"
      • },
      • {
        • confidence: 6.479984358403916e-09,
        • label: "auto+technik"
      • }
    • ]
  • }

Beschreibung der einzelnen Felder:

label Der Name der Kategorie. Mögliche Werte sind "politik", "wirtschaft", "auto+technik", "internet", "kultur", "reisen", "sport", "vermischtes", "wissenschaft"
confidence Der Konfidenzwert für die Kategorie, immer zwischen 0 und 1.

Antwortformat: Measures

  • {
    • measures: [
      • {
        • start: 8,
        • end: 15,
        • text: "2 Meter",
        • valueString: "2",
        • unitString: "Meter",
        • type: "LENGTH"
      • }
    • ]
  • }

Beschreibung der einzelnen Felder:

start Die Startposition der Maßzahl im Text.
end Die Endposition der Maßzahl im Text.
text Die Zeichenkette, so wie sie im Text vorkommt.
valueString Der Wert der Maßzahl als Zeichenkette, so wie sie im Text vorkommt.
unitString Die Einheit der Maßzahl als Zeichenkette, so wie sie im Text vorkommt.
type Der Typ der Maßzahl. Mögliche Werte sind "LENGTH", "AREA", "MASS", "TEMPERATURE", "VOLTAGE", "AMPERAGE", "RESISTANCE", "CHARGE", "CAPACITY", "CONDUCTANCE", "INDUCTANCE", "MAGNETIC_STRENGTH", "POWER", "ENERGY", "FORCE", "PRESSURE", "FREQUENCY", "VOLUME", "LUMINOSITY", "ILLUMINANCE", "SPIN", "SUBSTANCE", "RADIOACTIVITY", "CURRENCY", "TIME", "UNKNOWN"