Wer – Wieviel – Wovon? Ein kleiner Überblick zu arXiv-Statistiken

Nicht nur Physiker und Mathematikerinnen, sondern auch BibliothekarInnen haben große Freude an der Auswertung von Zahlenkolonnen – seien es Messreihen des LHC oder Nutzungsstatistiken von arXiv. Messfehler und –ungenauigkeiten werden (natürlich) immer berücksichtigt …

In diesem Sinne finde ich die von der Cornell University Library bereitgestellten Statistiken zur arXiv-Nutzung so spannend, dass ich hier einen kleinen Überblick hierzu geben möchte. 

Ach ja, aufgepasst arXiv Statistics ist natürlich der Bereich in arXiv, in dem man Paper zur Forschung auf dem Gebiet der Statistik findet und nicht die arXiv-Statistiken, die ich meine. arXiv usage statistics ist hier die richtige Adresse.

Für das Netzwerk arXiv-DH und das arXiv Membership Model sind natürlich die Institutional arXiv Usage Statistics, für die die Zahl der institutionellen Downloads ausgewertet wird, grundlegend: Welche Institutionen aus Deutschland sind 2014 auf welchem Platz gelandet, wo standen sie 2013? Aus der Summe der Institutional Membership Fees der Einrichtungen unter den TOP 200 berechnet sich immerhin unser arXiv-Beitrag.

Beeindruckend ist der rasante Anstieg der Zahl der monatlichen Downloads weltweit von ca. 7000 Downloads/Monat noch Anfang 2014 auf deutlich über 10.000 Downloads/Monat seit Anfang 2015.

Die Zahl der monatlichen Submissions nimmt ebenfalls weiterhin zu, wenn auch nicht so sprunghaft wie die Zahl der monatlichen Downloads.

Um sich einen Eindruck von den Inhalten von arXiv nach Teildisziplin zu machen, hilft ein Blick auf die Daten zu den Submission totals broken down by major subject areas through 2014 .

arXiv Submissionsion nach Teildisziplin
arXiv Submissionsion nach Teildisziplin

Für 2014 lassen sich die Diagramme zum zeitlichen Verlauf der kumulativen Submissions (also was ist zum Zeitpunkt X insgesamt drin) auch als Torte darstellen. Vergleicht man dies mit den Angaben zu den Submissions 2014 je Teildisziplin, dann sieht man, dass aktuell die Mathematiker und die Computerwissenschaftlerinnen die aktivsten arXiv-Befüller sind.

inhalte_arXiv_2014

Neben diesen für alle sichtbaren Zahlen erhalten die arXiv-Member – quasi als einer der Gegenwerte für ihr finanzielles Engagement – weitere Statistiken, wie z.B. die Zahl der Downloads einer Institution nach arXiv-Teildisziplin.

Als nationale arXiv-Kontaktstelle erhält die TIB diese Zahlen von der Cornell University Library also für alle von ihr vertretenen Einrichtungen im Netzwerk arXiv-DH. Dass wir für diese Zahlen bisher noch keine große Werbung gemacht und sie an die jeweiligen Einrichtungen weitergereicht haben, lag daran, dass wir sie in den letzten Jahren noch für vorläufig (oder ungenau s.o.) hielten, da noch einiges an Domain-Names zuzuordnen und zu sortieren war. Ich denke aber, dass sich inzwischen ein stabiles Bild ergeben hat, so dass wir jetzt Auskunft über diese Statistiken geben wollen.

Zuerst die Antwort auf die Frage: Wo steht meine Einrichtung? – Gerade, wenn sie nicht zu den TOP 200 institutionellen Nutzern gehört. Dafür haben wir die Liste erweitert auf die TOP 500 Einrichtungen im Netzwerk arXiv-DH:

GenreBeschreibung
Konferenz/TalkVideos von Vorträgen und (Podiums-)Diskussionen, meist im Rahmen von wissenschaftlichen Veranstaltungen wie Konferenzen, die Präsentationen vor Publikum darstellen.
VorlesungVideos, die im Rahmen der Lehre an Hochschulen entstehen und Lehrinhalte im klassischen Vorlesungsformat präsentieren. Sie bieten einen kontextualisierten Überblick über die Lehr- und Lerninhalte, meist im Rahmen eines Semesters.
Dokumentation/ReportVideos, die ausführlich über Forschungsvorhaben und wissenschaftliche Projekte berichten, wobei verschiedene gestalterische und produktionstechnische Elemente wie Animationen und Visualisierungen integriert sein können.
Workshop/Interaktives FormatAufzeichnungen von wissenschaftlichen Veranstaltungen, mit mehr oder weniger hohem Grad an aktiver Beteiligung der Teilnehmer, über einen Frage-und-Antwort-Teil hinaus.
ErklärvideoMeist kurze bis mittellange Videos, die wissenschaftliche Sachverhalte oder Phänomene anschaulich erklären und kontextualisieren, oft mit einem Hintergrund in der akademischen Lehre. Sie können eine Vielzahl von Inhalten abdecken und haben teils fließenden Übergang zu längeren Webinaren oder Tutorials mit 'How To'-Charakter.
Experiment/ModellVisualisierung von meist gegenständlichen Versuchsaufbauten, die wissenschaftliche Phänomene und Prozesse darstellen. Sie werden oft von einer Stimme aus dem Off oder von Personen vor der Kamera begleitet, um den Charakter und das Ziel des Experiments oder Modells zu erklären.
ForschungsdatenIm Rahmen wissenschaftlicher Vorhaben entstehende oder verwendete Daten im Videoformat, die oft Beziehung zum publizierten Forschungsergebnis stehen. Sie werden je nach Fachgebiet und Zielsetzung unterschiedlich produziert und methodisch aufbereitet.
Video AbstractKurze Filme, die das schriftliche Abstract einer wissenschaftlichen Publikation, oft in Form eines Journalartikels, ergänzen. Sie bieten einen schnellen Überblick und schaffen durch Anschaulichkeit idealerweise mehr Verständlichkeit und Aufmerksamkeit über die Arbeit, ihre Methoden und Ergebnisse.
Interview(Strukturierte) Gespräche mit Wissenschaftlerinnen und Wissenschaftlern über ihre Forschungsarbeit, Lehrtätigkeit, Werdegang und Lebenserfahrungen. Sie werden oft anlässlich von Wissenschaftspreisverleihungen oder während wissenschaftlicher Veranstaltungen durchgeführt.
Webinar/TutorialFilmische Gebrauchsanleitung, welche ein Thema, einen gewissen Vorgang oder eine Funktion erklärt. ("HowTo")
Sonstiges VideoKategorie für vergleichsweise selten auftretende Videos, welche nicht mindestens zu einem der anderen Genretypen explizit zugeordnet werden können.

Wer seine Einrichtung hier erwartet und nicht wiederfindet, kann sich gerne melden: Wir forschen nach. (Wie immer ist auch bei dieser Statistik eine gewisse Unschärfe zu vermuten, daher sollten die Werte gerade bei geringeren Downloadzahlen eher im Sinne einer groben Orientierung verstanden werden, wir haben sie daher nur als Zahlenbereich angegeben.)

Eine weitere Erweiterung ist die Information zur Verteilung der Downloads über die arXiv-Disziplinen. Für die Leibniz Universität Hannover sah sie in den letzten Jahren z.B. so aus:

arXiv_luh

Spannend ist, dass sich aus den Graphiken tatsächlich die Forschungsschwerpunkte der einzelnen Universitäten herauslesen lassen. Wer sich ein bisschen in der Forschungslandschaft deutscher Universitäten auskennt, den überrascht nicht, dass sich anhand der fachlichen Downloads das folgende Bild ergibt:

GenreBeschreibung
Conference/TalkVideos of lectures and (panel) discussions, usually in the context of scientific events such as conferences, which mostly are presentations in front of an audience.
LecturePresent teaching content in a traditional lecture format. They offer a contextualised overview of the teaching and learning content, usually within the framework of a semester.
Documentation/ReportVideos that report in detail on research respective scientific projects, whereby various design and production elements such as animations and visualisations can be integrated.
Workshop/Interactive FormatRecordings of scientific events, with a more or less high degree of active participation of the participants, beyond a question-and-answer part.
Explanatory VideoUsually short to medium-length videos that clearly explain and contextualise scientific facts or phenomena, often with a background in academic teaching. They can cover a variety of content and sometimes have a smooth transition to longer webinars or tutorials with a 'how-to' character.
Experiment/Model TestVisualisation of mostly representational experimental set-ups that depict scientific phenomena and processes. They are often accompanied by an off-camera voice or by people in front of the camera to explain the character and aim of the experiment or model.
Research DataData produced or used in video format as part of scientific projects, which are often related to the published research result. They are produced and methodically prepared differently depending on the subject area and objective.
Video AbstractShort films that supplement the written abstract of a scientific publication, often in the form of a journal article.They offer a quick overview and ideally create more comprehensibility and awareness of the work, its methods and results through clarity.
Interview(Structured) discussions with scientists about their research work, teaching activities, careers and life experiences.They are often held on the occasion of science award ceremonies or during scientific events.
Webinar/TutorialFilm instructions that explain a topic, a certain process or a function.("HowTo")
Other VideoCategory for comparatively rare videos that cannot be explicitly assigned to at least one of the other genre types.

Achtung: Da diese Tabelle viele Einrichtungen zusammenfasst, sind die lokalen Verhältnisse nicht immer adäquat dargestellt. Interessierte Einrichtungen mögen sich melden, wir geben dann sehr gerne die lokalen Statistiken weiter. Gerne nehmen wir auch Meldungen zu den genauen IP-Ranges der Universitäten entgegen, die wir dann den Kolleginnen an der Cornell University Library zur Optimierung der Statistik weiterreichen. (Vieles basiert aktuell auf DNS-Resolving.)

Darüber hinaus stellte sich mir die Frage nach einem „Frühjahrstagungseffekt“: Hat die Zusammenrottung vieler Wissenschaftler einer oder mehrerer physikalischer Teildisziplinen an einem Tagungsort einen Einfluss auf die arXiv-Statistik des ausrichtenden Universität, die ja netterweise ihren VPN-Zugang auch für die Tagungsbesucherinnen bereitstellt? Ich denke: ja, es gibt diesen Effekt! Aus der Statistik der Universität Regensburg lässt sich z.B. herauslesen, dass sich dort 2010 und 2013 die Sektion Kondensierte Materie der DPG getroffen hat. Dass ebenfalls 2013 die DPG-Jahrestagung mit dem für die Teilchenphysik seltenen Tagungsort Dresden stattfand, lässt sich in der Statistik der Uni Dresden an einer Verdoppelung der Downloads aus dem Bereich HEP im Jahr 2013 nachvollziehen. (Der Effekt ist allerdings nur dann signifikant, wenn sich entweder eine große Sektion an einer Uni mit ähnlicher fachlicher Ausrichtung oder eben eine Community mit deutlich unterschiedlicher Ausrichtung trifft.)

Leider gibt es keine verlässlichen Statistiken der Submissions nach Institution (Affiliation). Der Grund ist ganz einfach: Beim Einreichen eines Papers kann man zwar Informationen zur Author Affiliation angeben, muss es aber nicht. Außerdem werden diese dann nicht in einem eigens durchsuchbaren Feld gespeichert. (Und dann kommt da noch der Aspekt der Standardisierung der Institutionennamen hinzu: LUH = Leibniz Universität Hannover = Gottfried Wilhelm Leibniz Universität Hannover = Universität Hannover = …)

Bibliothekarisch gesprochen: Es gibt (zur Zeit) kein Metadatenfeld, in dem die Affiliation der Autoren gesondert erfasst wird, diese steht häufig nur im Volltext des Papers.

Die einzige „verlässliche“ Angabe zur Herkunft eines Autoren wird mit der E-Mail-Adresse des Submitting Authors übermittelt. Ursprünglich sollte das der Schwellenlosigkeit von arXiv dienen und der Bequemlichkeit der Autoren entgegen kommen, allerdings ist das ist nicht nur für die Abfrage von Statistiken schade, sondern auch für die Interoperabilität von arXiv mit Institutionellen Repositorien. (Die dadurch die Paper ihrer Autoren nicht durch eine einfache Abfrage nach Autoren-Affiliation in arXiv aufspüren können.) Hier hoffen wir einerseits auf die stärkere Nutzung von ORCID-IDs durch die Autoren in arXiv (in dern ORCIDs sind auch Institutionen verankert) bzw. längerfristig auf eine Erweiterung des arXiv-Metadatenschemas, u.a. um ein Affiliation-Feld. Die arXiv Interoperability Group hat sich dieses Themas bereits angenommen, wie auch in meinem arXiv Update August 2015 dargelegt.

... ist Fachreferentin für Physik und zuständig für die Nationale Kontaktstelle im Netzwerk arXiv-DH