Blog zum Openbibliojobs-Projekt

Phu hat nun ein Blog für das Openbibliojobs-Projekt eingerichtet, in dem zur Zeit nach Mitstreitern gesucht wird.

Eins noch, da die Frage gerade häufiger aufkommt: es ist sicherlich nicht sinnvoll, unterschiedliche Lösungen parallel zu betreiben. Doch da zumindest mir bislang unklar ist, welche Lösung tragfähig und chic ist, sind Experimente in verschiedenen Richtungen durchaus nützlich. Ich würde zum Beispiel gerne einen automatisierten Ansatz ausprobieren, ich komme nur gerade nicht dazu. Meine Idee in Kürze:

  1. Die einschlägigen Mailinglisten werden mit einer Art Hamfilter nach Stellenangeboten durchforstet.
  2. Die Treffer wiederum werden nach bestimmten Begriffen durchsucht: Orte, Tarife, Abschlüsse. Diese Begriffe werden erfasst und in eine Tabelle gepackt mit Link auf die komplette Stellenausschreibung.

10 Gedanken zu „Blog zum Openbibliojobs-Projekt“

  1. Aus unstrukturierten Texten Daten herauszuziehen, ist immer etwas heikel. Dennoch nicht unmöglich und einen Versuch wert.

    Ich sehe noch einen weiteren Ansatz für automatisierte Unterstützung: Die Liste der Quellen regelmäßig automatisch abfragen und entsprechend dem Vorschlag für die E-Mails behandeln. In manchen Fällen werden vielleicht RSS-Feeds zur Verfügung stehen, in machen müssen die Seiten per Screengrabbing ausgewertet werden. Schwierig wird es, wenn pdf-Dateien ins Spiel kommen.

    Erster Ansatz wäre jedoch, weil ja nicht alles in den Mailinglisten erscheint, die Liste der Quellen regelmäßig automatisiert auf Änderungen zu prüfen, um dies nicht manuell machen zu müssen. Das ist neben der Aufbereitung für die tabellarische Übersicht der Hauptaufwand, der derzeit bei Bibliojobs besteht (wobei ich nicht genau weiß, ob der Geschäftsführer nicht selbst schon mit solchen Hilfsmitteln arbeitet; aber dann entfiele ja vielleicht das Argument des BIB, wegen des großen Aufwands nur noch Mitglieder versorgen zu dürfen).

    Ich hätte durchaus Lust, etwas derartiges zu probieren,aber für mehr als Beteiligung an der Diskussion reicht meine Zeit einfach nicht aus.

  2. Und bei automatischem Monitoring der Quellen müßte man natürlich eine Dublettenkontrolle mit den über Mailinglisten bekanntgemachten und bereits erfaßten Stellen berücksichtigen. Das könnte über die Links zur Stellenausschreibung gehen, wäre aber nicht zuverlässig. Manchmal gibt es eine pdf- und eine html-Version der Ausschreibung, manchmal wird in einer E-Mail nicht direkt auf die Ausschreibung verlinkt, sondern auf die Übersicht der Ausschreibungen. Man bräuchte also weitere Daten, die eine Heuristik für die Erkennung von Dubletten ausgewertet werden (Eingruppierung, Fristende etc.).

  3. Dass es Alternativen gibt, zeigt die Situation in Frankreich, wo vor wenigen Jahren Biblio-Fr eingestellt wurde. Neben Stellenangeboten auf Netvibes gibt es noch ein Weblog (http://biblioemplois.wordpress.com/), alle anderen Seiten wie die der BnF oder Bibliofrance (http://www.bibliofrance.org) sind institutionsgebunden. Wer bei dem eben genannten Weblog ein Stellenangebot hat, kann dies an die E-mailadresse biblioemplois@yahoo.fr melden. Gerne würde ich Mistreiter werden, je nach dem wie es mir zeitlich möglich ist und, was es zu tun gibt.

  4. Folgende Idee:

    In eimem “Stream” werden nach und nach

    1. alle Mails mit Jobangeboten aus Mailingslisten (inetbib, bak_jobinfo, …)

    2. Benachrichtigungen über neue Ergebnisse von gespeicherten Suchen bei Jobsuchmaschinen

    3. Benachrichtigungen über Änderungen auf Webseiten, die Jobangebote enthalten (z.B. über http://www.watchthatpage.com/)

    aufgenommen.

    Ziel: eine möglichst vollständige Übersicht über die Änderungen in den relevanten Quellen (siehe z.B. die Listen des BIB) für die Stellensuche.

    Funktionsweise: es gibt ein Emailkonto für die Emails aus den o.g. Kanälen. Die Mails werden an WordPress weitergeleitet und über das “Post by Email”-Feature in WordPress gesammelt.

    Die weitere Auswertung, ob manuell oder automatisiert, könnte dann auf diesen Stream aufsetzen.

    Hier ist ein erster Test mit einer manuell weitergeleiteten Mail:
    http://openbibliojobs.wordpress.com/

  5. Ja, der Ansatz klingt gut. Und hätte den Vorteil, dass eine nachträgliche Erschliessung möglich ist. Die freiwillige Helferschar könnte Accounts bekommen und dann einfach die Postings mit den Stellenanzeigen taggen oder kategorisieren. Auch Dubletten könnten so leicht entfernt werden.

    Stellenanzeigen, die von Institutionen oder Personen gemeldet werden sollen, können auch einfach an per Mail eingereicht werden und würden identisch behandelt.

    Weitere Vorteile: Die Stellen stünden per RSS und auch per Mail zum Abonnement.

    Nachteil: Sortierbare Darstellung ist nicht ganz so einfach. Tags für Deadlines oder Orte sortierbar in einer Tabelle darstellen? Oder Facetten à la Solr?

    Da fehlt mir eine konkrete Idee, wie man das elegant anpacken könnte.

  6. “Nachteil: Sortierbare Darstellung ist nicht ganz so einfach.” Einem Stream ist die chronologische Sortierung inhärent, siehe z.B. die Twittertimeline. Du sagst ja selbst, dieser Stream kann (muss) nachträglich bearbeitet werden. Ich würde den Stream nicht nach wordpress bringen sondern in ein passenderes Backend, eine Suchmaschine (elasticsearch (ES)), persistieren. ES bietet Dokumentenversionierung, Facetten, Zeitsortierung usw., JSON rein und raus, braucht kein Indexprofil usw. Das Backend kann dann z.B. in WordPress eingebunden werden. Dann z.B. Volltextuche nach “Java Köln” und die Treffer vom Benutzer beim Lesen gleich Taggen/deduplizieren lassen usw., Ergebnisse versioniert (!) zurück ins Backend.

  7. Schaue ich mir die typischen Job-Nachrichten in inetbib an, dann gibt es im wesentlichen zwei Kategorien:

    – vollständige Stellenausschreibung in der E-Mail
    – Info, dass eine Stelle ausgeschrieben ist und link zur Ausschreibung, ohne weitere Angaben.

    Natürlich gibt es auch alles dazwischen, das aber eher selten. Mit dem vorgeschlagenen Verfahren automatisch E-Mails aus Mailinglisten herauszufiltern und auszuwerten, ist Kategorie zwei nicht zufriedenstellend erledigt. Es ist also entweder notwendig, dem Link zu folgen oder manuell nachzuarbeiten. Hinter dem Link liegt dann HTML, PDF, …
    Den Vorschlag von DrOi finde ich gut, nur wer betreibt diesen Service auf Dauer? Am Ende brauchen wir nämlich keine Spielwiese sondern einen stabilen, funktionierenden Service, der nicht zu viel Wartungsaufwand erfordert.

  8. Es gibt ja bereits , das mithilfe der Shortimer-Software () die code4lib Malingliste nach Jobpostings durchsucht und einigermaßen strukturiert (Titel, Institution, Tags) publiziert wird. Vielleicht kann man das anchnutzen…

  9. Das stimmt natürlich – da stecken schon Aufwände drin. Können das ein paar Freiwillige stemmen?

    Elasticsearch auf meinem Rootserver zu hosten fällt mir leicht, wenn das gewünscht ist einfach fragen. Und wenn noch jemand einen Rootserver hat bauen wir einen HA-Cluster, das geht mit ES leicht.

    Die Lösung für das zweite Problem hast Du ja selbst geliefert: Link folgen, auswerten und konvertieren, speichern.

Kommentare sind geschlossen.