Im April 2026 haben wir TechPuls gestartet — die erste offene Datenbank der deutschen Tech-Landschaft. Aktueller Stand: 815 Tech-Unternehmen in 80 deutschen Großstädten, interaktive Karte unter techlogia.de/techpuls. Dieser Post erklärt, wie das Projekt entstanden ist und welche methodischen Entscheidungen wir unterwegs getroffen haben.
Warum TechPuls?
Wer heute deutsche Tech-Unternehmen recherchieren will, landet entweder bei:
- Crunchbase / Tracxn — international, auf US-Unicorns fokussiert, Paywall
- deutsche-startups.de — aktuell, aber redaktionell (keine strukturierten Daten)
- Statista — aggregiert, teuer, nicht auf Einzelfirmen-Ebene
- Gründungsmonitor — historische Daten, keine aktive Firmen-DB
Eine offene, strukturierte, aktuelle DB der deutschen Tech-Landschaft gab es nicht. Als Open-Source-Projekt mit CC-BY-4.0-Daten schließen wir die Lücke.
Die Datenstruktur
Jede Stadt in TechPuls hat folgende Felder:
{
"name": "Heidelberg",
"slug": "heidelberg",
"bundesland": "Baden-Württemberg",
"einwohner": 155756,
"lat": 49.3988,
"lon": 8.6724,
"tech_score": 68,
"companies_count": 2
}
Der tech_score ist ein 0–100-Index, kombiniert aus Einwohner-Logarithmus, Hochschul-Dichte, Firmen-Cluster, Funding-Volumen und Open-Source-Aktivität. Berlin führt mit 92, gefolgt von München (88) und Hamburg (82). Auf der unteren Skala liegen reine Industrie-Städte wie Hamm (36) oder Gelsenkirchen (38) — nicht weil dort keine Wertschöpfung passiert, sondern weil der Tech-Aspekt gering ist.
Jede Firma hat:
{
"name": "Camunda",
"slug": "camunda",
"stadt": "berlin",
"kategorie": "scaleup",
"branche": "saas / process-automation / bpmn",
"gruendung": 2008,
"mitarbeiter": "201-500",
"tech_stack": ["Java", "Spring", "Kubernetes", "React", "Kafka"],
"website": "https://camunda.com",
"funding_eur": 182300000
}
Wo die Daten herkommen
Die Basis-Seed sind 55 bekannte deutsche Tech-Firmen, die wir manuell eingepflegt haben. Der Rest kam durch automatisierte Agent-Läufe über öffentliche Quellen:
- deutsche-startups.de Dealmonitor (Funding-Meldungen der letzten Wochen)
- EU-Startups und t3n (für größere Rounds)
- GitHub-APIs (für Tech-Stack-Ableitung)
- Firmen-Websites (Gründungsjahr, Mitarbeiter-Range, Hauptstandort)
- Stellenanzeigen (für Tech-Stack wenn GitHub leer war)
Jeder Lauf des Research-Agents produziert eine Markdown-Datei unter
docs/techpuls-data/, die im Git versioniert wird. So können wir jederzeit
nachvollziehen, wann ein Eintrag dazugekommen ist und woher die Info kam. Das ist
wichtig für die Datenqualität und auch für die CC-BY-4.0-Zitation.
Die Herausforderungen
Duplikate über Legal-Form-Varianten
Das erste große Problem: „Batene GmbH" vs. „Batene". Der Agent fand beide Schreibweisen in unterschiedlichen Quellen. Ohne Normalisierung hätten wir Duplikate. Lösung: beim Slug-Generieren Rechtsform-Suffixe (GmbH, AG, SE, eG, KG, Holding) abschneiden. Das filterte 32 Duplikate bei einem Import mit 540 Kandidaten — etwa 6 % Fehlerrate ohne diesen Schritt.
Städte die nicht in der DB sind
Ursprünglich hatten wir nur 30 Städte. Firmen in Regensburg, Paderborn, Siegen, Freiburg konnten nicht eingepflegt werden. Lösung: alle 80 deutschen Großstädte (über 100.000 Einwohner) aufnehmen. Damit sind ~95 % der deutschen Tech-Szene abgedeckt.
„Bei München" oder „Hauptsitz Zürich, DE-Standort"
Viele deutsche Firmen sitzen in Münchener Vororten (Martinsried, Ottobrunn, Garching) oder haben ihren HQ in der Schweiz. Die Stadt-Zuordnungsregel: wenn das echte deutsche Büro in Umland-Kommune X liegt und X keine Großstadt ist, ordnen wir sie der nächsten Großstadt zu (München in diesen Fällen). Für nicht-deutsche HQs nur aufnehmen, wenn es eine substanzielle deutsche Niederlassung gibt.
Was du damit anfangen kannst
Die Daten sind unter CC BY 4.0 lizenziert. API-Endpoints:
GET /api/techpuls/cities?limit=200— alle 80 Städte mit KoordinatenGET /api/techpuls/cities/{slug}— Stadt-Details mit Firmen-ListeGET /api/techpuls/stats— Aggregat-ZahlenGET /api/techpuls/rankings?limit=20— Top-Städte
Attribution: „Daten: TechPuls (techlogia.de), CC BY 4.0". Bulk-Dumps (die komplette DB auf einmal) sind im Public-API rate-limitiert — dafür bitte kurz per Mail anfragen unter kontakt@techlogia.de.
Was als Nächstes kommt
Geplante Features für Q2/Q3 2026: Tech-Stack-Filter (alle Firmen mit „Rust" oder „Kubernetes"), Funding-Timeline pro Stadt, CSV-Export, Public-Contributions per Pull-Request gegen das GitHub-Repo. Wer Lust hat mitzumachen: Issues gerne, PRs mit zusätzlichen Firmen auch.

