Für was eignet sich der Resource HTML-Format?
Der Format ermöglicht das Einlesen von Dokumenten in einer klaren Struktur. Die definierte Struktur sorgt für die bestmöglichen Resultate bei der Verwendung der KI-Funktionalitäten.
Der Format kann in jedem gängigen Browser dargestellt werden. Er eignet sich daher auch zum Präsentieren und Überarbeiten des Dokuments.
Mit speziellen Tags, kann die Generierung von Fragen und auch das Beantworten von Fragen beeinflusst werden.
Anleitung
Das Wichtigste in Kürze
Der Format definiert ein spezifisches HTML-Gerüst, das aus validem HTML besteht
Elemente wie Bilder und Tabellen sind zulässig, werden aber aktuell beim Verarbeiten entfernt
Mit dem Tag <mm-selection> können Inhalte manuell für die Verarbeitung durch KI strukturiert werden
Wie ist die Resource HTML aufgebaut?
1. HTML-Gerüst
Den eigentlichen Inhalt kann man entweder in einem herkömmlichen HTML-Gerüst platzieren, oder das Gerüst komplett weglassen. Mit dem Gerüst kann das valide HTML in einem Browser gesichtet werden und bei Bedarf auch gestylt werden.
2. Artikel
Der Inhalt wird in Form von Artikeln gegliedert. Ein Artikel besteht aus einem umfassenden Div, das eine Überschrift und wiederum ein Div enthält. Unterartikel (mit einer höheren Überschrift) werden nicht verschachtelt, sondern einfach mit der entsprechenden Überschrift als weiterer Artikel aufgeführt.
<div> <h2>TITEL DES ARTIKEL 1</h2> <div> INHALT DES ARTIKEL 1 </div> </div> <div> <h3>TITEL DES ARTIKEL 2</h3> <div> INHALT DES ARTIKEL 2 </div> </div>
Aus einem Artikel wird grundsätzlich eine Frage generiert und ein Index erstellt, welcher bei der Beantwortung von Fragen zum Zuge kommt.
Überschriften
Die Überschrift H1 ist nicht zulässig, da der Dokumententitel nicht im HTML erfasst wird. Valide Überschriften sind H2-H6. Dabei muss die Hierarchie eingehalten werden. Auf ein H2 darf dementsprechend kein H4 folgen (sondern ein H3 oder eine tiefere Überschrift).
Enthält ein Artikel mit einer Überschrift keinen direkten Text (sondern weitere Abschnitte mit Titeln), wird der Titel ohne Inhalt erfasst:
<div> <h2>TITEL DES ARTIKEL 1</h2> </div> <div> <h3>TITEL DES ARTIKEL 1.1</h3> <div> INHALT DES ARTIKEL 1.1 </div> </div> <div> <h3>TITEL DES ARTIKEL 1.2</h3> <div> INHALT DES ARTIKEL 1.2 </div> </div>
3. Inhalt eines Artikel
Ein Artikel kann beliebige Elemente enthalten, sofern die Grundstruktur eingehalten wird. Strukturen von Elementen wie Listen (<ul>), Tabellen (<table>) und Paragrafen (<p>) werden für die Verarbeitung verwendet. Andere Elemente, wie z. B. Bilder, werden aktuell beim Verarbeiten ignoriert. Für zukünftige Erweiterungen lohnt es sich gegebenenfalls jedoch, diese Elemente dennoch zu erfassen.
4. Artikel mit Selektionen logisch unterteilen
Um die Indexierung und die Fragegenerierung zu beeinflussen, bietet sich der Tag <mm-selection> an. Mit dem Tag kann eine beliebige Struktur innerhalb des Artikelinhalts eingefasst werden. Der eingefasste Texte, sowie der davorstehende und folgende Text, werden automatisch unterteilt.
Beider der folgenden Varianten resultieren in drei Fragen und Indizes:
Einzelne Selection
<div> <h2>TITEL DES ARTIKEL 1</h2> <div> INHALT DES ARTIKEL A <mm-selection> INHALT DES ARTIKEL B </mm-selection> INHALT DES ARTIKEL C </div> </div>
Mehrere Selections
<div> <h2>TITEL DES ARTIKEL 1</h2> <div> <mm-selection> INHALT DES ARTIKEL A </mm-selection> <mm-selection> INHALT DES ARTIKEL B </mm-selection> <mm-selection> INHALT DES ARTIKEL C </mm-selection> </div> </div>
5. Seitenzahl
Neben den Überschriften, kann das Dokument mit dem Attribute data-page-number mit einer weiteren Quellen-Spezifizierung bereichert werden. Das Attribute enthält eine Zahl, welche die Seitenzahl des Artikels oder der Selektion im Originaldokument widerspiegelt. Entscheidend für die Seitenzahl ist, ist die Seite, auf der der Artikel bzw. die Selektion startet.
Angabe auf dem äusseren Div
<div data-page-number="53"> <h2>TITEL DES ARTIKEL 1</h2> <div> INHALT DES ARTIKEL 1 </div> </div>
Angabe auf einer Selektion
<div> <h2>TITEL DES ARTIKEL 1</h2> <div> INHALT DES ARTIKEL A <mm-selection data-page-number="53"> INHALT DES ARTIKEL B </mm-selection> INHALT DES ARTIKEL C </div> </div>
Beispieldateien
Die Datei grano.html dient als Beispieldatei. Die grano.css ist optional und stylet die grano.html, damit u. a. die Selektionen sichtbar sind.
Troubleshooting
Frage?
Teste