Versions Compared

Key

  • This line was added.
  • This line was removed.
  • Formatting was changed.
Info

Für was eignet sich der Resource HTML-Format?

  1. Der Format ermöglicht das Einlesen Erfassen von Dokumenten in einer klaren Struktur. Die definierte Struktur sorgt für die bestmöglichen Resultate bei der Verwendung der KI-Funktionalitäten.

  2. Der Format kann in jedem gängigen Browser dargestellt werden. Er eignet sich daher auch zum Präsentieren und Überarbeiten des Dokuments.

  3. Mit speziellen Tags, kann die Generierung von Fragen und auch das Beantworten von Fragen beeinflusst werden.

Anleitung

Tip

Das Wichtigste in Kürze

  1. Der Format definiert ein spezifisches HTML-Gerüst, das aus validem HTML besteht

  2. Elemente wie Bilder und Tabellen sind zulässig, werden aber aktuell beim Verarbeiten entfernt

  3. Mit dem Tag Der Formate unterteilt Textabschnitte in verschiedene Artikel, welche später durch die KI verarbeitet werden

  4. Mit Selektionen <mm-selection> können Inhalte manuell für die Verarbeitung durch KI strukturiert werden

Wie ist die Resource HTML aufgebaut?

1. HTML-Gerüst

Den eigentlichen Inhalt kann man entweder in einem herkömmlichen HTML-Gerüst platzieren, oder das Gerüst komplett weglassen. Mit dem Gerüst kann das valide HTML in einem Browser gesichtet werden und bei Bedarf auch gestylt werden.

Mit Gerüst

Code Block
languagehtml
<!DOCTYPE html>
<html>
  <head>
      <meta charset="UTF-8">
      <title>GranoCafe by Grano</title>
      <link rel="stylesheet" href="grano.css"> 
  </head>
  <body>
      <!-- X ARTIKEL -->
  </body>
</html>

Ohne Gerüst

Code Block
languagehtml
<!-- X ARTIKEL -->

2. Artikel

Der Inhalt wird in Form von Artikeln gegliedert. Ein Artikel besteht aus einem umfassenden Div, das eine Überschrift und wiederum ein Div enthält. Unterartikel (mit einer höheren Überschrift) werden nicht verschachtelt, sondern einfach mit der entsprechenden Überschrift als weiterer Artikel auf derselben Ebene aufgeführt.

Code Block
<div>
    <h2>TITEL DES ARTIKEL 1</h2>
    <div>
        INHALT DES ARTIKEL 1
    </div>
</div>
<div>
    <h3>TITEL DES ARTIKEL 2</h3>
    <div>
        INHALT DES ARTIKEL 2
    </div>
</div>

Aus einem Artikel wird grundsätzlich eine Frage generiert und ein Index erstellt, welcher bei der Beantwortung von Fragen zum Zuge kommt.

Überschriften

Die Überschrift H1 ist nicht zulässig, da der Dokumententitel nicht im HTML erfasst wird. Valide Überschriften sind H2-H6. Dabei muss die Hierarchie eingehalten werden. Auf ein H2 H3 darf dementsprechend kein H4 H5 folgen (sondern ein H3 oder eine tiefere ÜberschriftH4 oder ein H2).

Enthält ein Artikel mit einer Überschrift keinen direkten Text (sondern weitere Abschnitte mit Titeln), wird der Titel ohne Inhalt erfasst:

Code Block
<div>
    <h2>TITEL DES ARTIKEL 1</h2>
</div>
<div>
    <h3>TITEL DES ARTIKEL 1.1</h3>
    <div>
        INHALT DES ARTIKEL 1.1
    </div>
</div>
<div>
    <h3>TITEL DES ARTIKEL 1.2</h3>
    <div>
        INHALT DES ARTIKEL 1.2
    </div>
</div>

3. Inhalt eines Artikel

Ein Artikel kann beliebige Elemente enthalten, sofern die Grundstruktur eingehalten wird. Strukturen von Elementen wie Listen (<ul>), Tabellen (<table>) und Paragrafen (<p>) werden für die Verarbeitung verwendet. Andere Elemente, wie z. B. Bilder (<img>), werden aktuell beim Verarbeiten ignoriert. Für zukünftige Erweiterungen lohnt es sich gegebenenfalls jedoch, diese Elemente dennoch zu erfassen.

4. Artikel mit Selektionen logisch unterteilen

Um die Indexierung und die Fragegenerierung zu beeinflussen, bietet sich der Tag <mm-selection> an. Mit dem Tag kann eine beliebige Struktur innerhalb des Artikelinhalts eingefasst werden. Der eingefasste Texte, sowie der davorstehende und folgende Text, werden automatisch unterteilt.

Beider der folgenden Varianten resultieren in drei Fragen und Indizes:

Einzelne Selection

Code Block
<div>
    <h2>TITEL DES ARTIKEL 1</h2>
    <div>
      INHALT DES ARTIKEL A
      <mm-selection>
          INHALT DES ARTIKEL B
      </mm-selection>
      INHALT DES ARTIKEL C
    </div>
</div>

Mehrere Selections

Code Block
<div>
    <h2>TITEL DES ARTIKEL 1</h2>
    <div>
      <mm-selection>
          INHALT DES ARTIKEL A
      </mm-selection>
      <mm-selection>
          INHALT DES ARTIKEL B
      </mm-selection>
      <mm-selection>
          INHALT DES ARTIKEL C
      </mm-selection>
    </div>
</div>

5. Seitenzahl

Neben den Überschriften, kann das Dokument mit dem Attribute data-page-number mit einer weiteren Quellen-Spezifizierung bereichert werden. Das Attribute enthält eine Zahl, welche die Seitenzahl des Artikels oder der Selektion im Originaldokument widerspiegelt. Entscheidend für die Seitenzahl ist, ist die Seite, auf der der Artikel bzw. die Selektion startet.

Angabe auf dem äusseren Div

Code Block
<div data-page-number="53">
    <h2>TITEL DES ARTIKEL 1</h2>
    <div>
        INHALT DES ARTIKEL 1
    </div>
</div>

Angabe auf einer Selektion

Code Block
<div>
    <h2>TITEL DES ARTIKEL 1</h2>
    <div>
      INHALT DES ARTIKEL A
      <mm-selection data-page-number="53">
          INHALT DES ARTIKEL B
      </mm-selection>
      INHALT DES ARTIKEL C
    </div>
</div>

Beispieldateien

Die Datei grano.html dient als Beispieldatei. Die grano.css ist optional und stylet die grano.html, damit u. a. die Selektionen sichtbar sind.

View file
namegrano.html
View file
namegrano.css

Warning

Troubleshooting

Frage?

Teste