Was weiß das Internet über die Entwicklung von Software?

read this article in Englisch

 

Ein Beitrag von Helge Holzmann, Wolfram Sperber und Mila Runnwerth

Software ist dynamisch und unterliegt einer kontinuierlichen Entwicklung. Die unterschiedlichen Zustände und Versionen einer Software in ihrem Entwicklungsprozess sind dabei oft fließend. Ein solcher Zustand ist schwer greifbar und kann, wenn überhaupt, lediglich durch seine Versionsnummer benannt werden. Im gleichen Maße wie die Software entwickelt sich jedoch häufig auch ihre Darstellung im Web, sei es auf der eigenen Homepage oder durch Diskussionen und Beschreibungen auf externen Websites. Web-Archive ermöglichen es, die Entwicklung einer Software anhand ihrer Web-Präsenz nachzuvollziehen. Im Rahmen des Fachinformationsdienst Mathematik wurde ein Web-Service entwickelt (das Tempas TimePortal), der die zeitliche Entwicklung von Software-Homepages  mit der eigentlichen Software verknüpft. In der Datenbank für relevante Software in der Mathematik swMATH bietet die Integration des TimePortals jetzt die Möglichkeit, den Stand der Software zum Zeitpunkt einer wissenschaftlichen Veröffentlichung, in der die Software erwähnt wird, anhand des Internetauftritts nachzuvollziehen.

swMATH

Die frei zugängliche Datenbank swMATH ist ein Informationsdienst für mathematikrelevante Software. Aus Publikationen, die in der zbMATH nachgewiesen sind, werden halbautomatisch Informationen zu verwendeter Software gewonnen und aufbereitet.

Neben Metainformationen wie einer Beschreibung, URL, Entwicklern und ähnlicher Software bietet swMATH eine Liste der Publikationen, in der die Software erwähnt wird, wobei zwischen Refenzierungsveröffentlichungen und Softwaredokumentationsveröffentlichungen unterschieden wird. Bei ersteren wurde Software verwendet, um eine Forschungsfrage zu bearbeiten. Bei letzteren ist die Software selbst Forschungsgegenstand. Damit können auch die Vorteile von zbMATH auf die Software vererbt werden, wie beispielsweise eine Klassifizierung nach der Mathematics Subject Classification 2010.

Anzeige zur Software SINGULAR in swMATH

Fragestellung

Als freier Informationsdienst für mathematische Software bietet swMATH einen hervorragenden Ansatz, um herauszufinden, wie Software in der mathematischen Forschung überhaupt benutzt und als Instrument des Erkenntnisgewinns gewürdigt wird. Auf Grundlage der dort gelisteten Software stellten Helge Holzmann et al. bei der TPDL-Konferenz im September 2016 eine Analyse vor, wie Software-Websites in der Regel aufgebaut sind und inwieweit sie Informationen über die eigentliche Software liefern oder sogar als Repräsentation dieser angesehen werden können [1]. Um so die zeitliche Entwicklung einer Software nachvollziehen zu können, wurde weiterhin untersucht, in welchem Umfang ältere Versionen der jeweiligen Webseiten archiviert wurden und mithilfe der Wayback Machine noch abgerufen werden können. Aus dieser Analyse wurde geschlossen, dass Software-Websites häufig genügend Informationen sowie Zusatzmaterialien (Dokumentation etc.) bereitstellen, um ein Verständnis der Software zu bekommen. Die Verknüpfung einer Software-Version mit der entsprechenden zeitlichen Darstellung im Web kann somit hilfreich sein, um den Zustand der Software, wie er zum Beispiel in wissenschaftlichen Publikationen verwendet wurde, nachzuvollziehen.

Das Tempas TimePortal in swMATH

Um die gerade beschriebene Verknüpfung zwischen Web-Archiv und der Software in einer wissenschaftlichen Publikation zu ermöglichen, wurde das Tempas TimePortal speziell an diesen Anwendungsfall angepasst. Tempas ist eine Suchmaschine zur zeitlichen Suche archivierter Websites, welche im Rahmen des Projekte ALEXANDRIA am L3S entwickelt wird. Das TimePortal basiert auf der Wayback Machine und dient dazu, die Ergebnisse einer solchen Suche darzustellen, indem bestimmte Versionen einer archivierten Seite und verglichen werden können, anstatt das ganze Archiv anzuzeigen. Im Rahmen des FID Mathematik wurde dies dahingegen erweitert, dass Software-Webseiten nicht über URL sondern über eine Publikation aus swMATH erreichbar sind, in der die Software verwendet wird. Zusätzlich werden spezielle Merkmale einer Software, wie ihre Dokumentation, die auf der Seite verlinkt sind, für den Benutzer herausgestellt. Die archivierte Webseite kann so als zeitliche Repräsentation der Software wahrgenommen werden.

Seit Mitte April ist nun diese Anbindung an das Tempas TimePortal, um den Web-Auftritt einer Software zum Zeitpunkt einer sie zitierenden oder sie referenzierenden Veröffentlichung zu verfolgen, in swMATH eingebaut. Hier wollen wir das Feature vorstellen:

 

Im Übersichtsblock der Metadaten gibt es jetzt den Vermerk Versions mit dem TimePortal-Logo:

Wird das Logo angeklickt, erscheinen in der Publikationsliste ebenfalls TimePoral-Icons; in einem kräftigen Ton, falls es einen Archiv-Eintrag zu dem Zeitpunkt der Veröffentlichung gibt, bzw. in einem blassen Grauton, falls es keinen gibt (weil es zum Beispiel vor den 1990er Jahren keine Internetauftritte gab oder die Seite in einem Jahr nicht archiviert wurde). Dabei werden bisher lediglich die Jahreszahlen der Veröffentlichungen berücksichtigt. In der Zukunft sollen die Verknüpfungen genauer auf die tatsächlich genutzten Software-Version einer Publikation verweisen.

Klickt man anschließend auf das Icon, öffnet sich das Tempas TimePortal mit dem Web-Auftritt der Software aus dem Jahr der gewählten Veröffentlichung.

SINGULAR-Homepage 2001
SINGULAR-Homepage heute

Oben im TimePortal ist die Quelle eingeblendet: Die gewählte Veröffentlichung aus swMATH. Darunter ein Menü, welches bei der Analyse der Homepage und seiner Unterseiten automatisch nach Merkmalen zusammengestellt ist. Typische Merkmale für eine Software-Homepage sind Seiten für Dokumentation, Veröffentlichungen, Downloads.

Ausblick

Dieser Ansatz dient der Nachvollziehbarkeit und Reproduzierbarkeit von Forschungsergebnissen, die auf Software beruhen, wenn die Software selbst nicht (mehr) zugänglich ist.  Um diesem Ziel noch näher zu kommen, wollen wir dynamische und semantische Web-Archive verwenden bzw. bei Bedarf erstellen. Sie können dann als eigenständige Publikationen oder als zuverlässig zitierbare Quellen in den Forschungsprozess integriert werden.

Das Team

Dies ist ein Beitrag von Helge Holzmann, Wolfram Sperber und Mila Runnwerth.

Helge Holzmann
ist Doktorand am Forschungszentrum L3S für grundlagen- und anwendungsorientierte Forschung im Bereich Web Science. Er forscht im Bereich Web-Archivierung, der dauerhaften Verfügbarkeit von Netzpublikationen aller Art.

Wolfram Sperber
ist wissenschaftlicher Mitarbeiter beim zbMATH, dem traditionsreichen Abstracting- und Reviewing-Dienst für Mathematik, wo er die Literaturdatenbank sowie die Softwaredatenbank swMATH weiterentwickelt.

Mila Runnwerth
ist Fachreferentin für Informatik und Mathematik an der TIB. Sie koordiniert im FID den Teilbereich Maths Beyond Text, der sich mit nichttextuellen Materialien im mathematischen Forschungsprozess befasst.

Dank gilt auch Gerrit Grenzebach und Anna Kasprzik für die hervorragende FID-Projektorganisation und das kritische Feedback.

 

Fachinformationsdienst Mathematik

Der Fachinformationsdienst (FID) Mathematik ist ein DFG-gefördertes Projekt mit dem Ziel, eine Infrastruktur für die überregionale Bereitstellung wissenschaftlicher Ressourcen, In­form­at­i­onsservices und Dienstleistungen zu entwickeln, die über bisher verfügbare Angebote für die mathematische Forsch­ung hinausgehen und diese substanziell ergänzen. Der FID ist ein gemeinsames Projekt der Staats- und Universitätsbibliothek Göttingen und der Technischen Informationsbibliothek (TIB) in Hannover. Neben einer Kooperation mit dem Mathematischen Forschungsinstitut Oberwolfach arbeitet der FID eng mit Forschungseinrichtungen aus der Mathematik oder der Informationsinfrastruktur zusammen, wie dieses Projekt auch zeigt.

Weitere Informationen

Fußnote:
[1] Holzmann H., Sperber W., Runnwerth M. (2016) Archiving Software Surrogates on the Web for Future Reference. In: Fuhr N., Kovács L., Risse T., Nejdl W. (eds) Research and Advanced Technology for Digital Libraries. TPDL 2016. Lecture Notes in Computer Science, vol 9819. Springer, Cham