Startprocedure

strawbale · 31 okt 2015

Hallo Edwin,

Dank voor je uitgebreide reactie(s).

Ook op/voor dit forum nog even terugkomend op een paar punten:

#23 (Als ik heel simpel naar de data kijk (is niet een objectieve methode, dat klopt), dan zie ik in het artikel dat de mannen tot 4.7 seconden volledig vlak zijn, geen invloed dus, en vanaf 4.7 seconden gaat het heel hard omhoog. Misschien kunnen schaatsers wel niet zo lang stil staan en verzuren ze dan waardoor ze langzamer zijn, of misschien kunnen die langzame mensen het wel niet.)

Je kunt niet naar een puntenwolk kijken en er resultaten uit beredeneren. Het zijn simpelweg teveel punten om te kunnen overzien. Daarom hebben we statistiek, dat is een objectievere methode.

Ik vind je antwoord (te) defensief. Voor een ieder is het duidelijk te zien, zonder statistiek erop los te laten, dat de mannen puntenwolk verdeling na (ca.) 4,7 sec er duidelijk anders uitziet dan daarvoor. Wetend dat het ready-start interval is op te spitsen in een ready-set en een set-start deel, kan een set-start interval boven een bepaalde waarde (verzuring?) wellicht duidelijk(er) negatief zijn. Des te meer een reden die twee subintervallen te scheiden, hoe lastig ook.

#24 (Heb je de tijden genomen tussen Ready en het schot, of tussen het stilstaan en het schot? Dat tweede lijkt me veel belangrijker, dan pas gaan schaatsers actief opletten.)

De tijden zijn tussen “Ready” en het schot, en je tweede bewering is niet waar. Uit de comments op mijn blog: As I argue, the ‘set’ moment is not one precise instant in time. It’s a decision process. Alerting, from the outset, has been described and tested as a response to a non-specific cue, usually an auditory and sometimes a visual event. With a very clear onset, unlike the ‘set’ moment.

Ik is duidelijk dat het set moment moeilijk precies te bepalen is. Maar het is relatief eenvoudig voor elke rit een splitsing te maken in de trage en de snelle setter. Als jullie insteek klopt dat alerting vanaf het ready moment begint te spelen, zou een (nieuwe) analyse dezelfde resulaten moeten geven als zonder uitsplitsing, maar als blijkt dat uitsplitsing wel leidt tot een ander resultaat (voorspelling: de snellere setters van een lang ready-start interval rijden langzamer dan de langzame setters), dan zou dat kunnen aangeven dat alerting, en bij hele lange set-start intervals wellicht ook andere zaken, pas begint (of in ieder duidelijker een rol speelt) vanaf het (vage) set moment.

Welke van je genoemde literatuur betreft testen die goed vergelijkbaar zijn met de startprocedure bij schaatsen? de definitie "response to a nonspecific cue, usually an auditory and sometimes a visual event (with a very clear onset0 is mij te vaag.
Bij een schaats start hebben de schaatsers zelf namelijk een (hele) grote invloed op het door jullie gekozen 'ready-start' interval (door snel/langzaam te setten). In welke lab testen is dat ook het geval? En waar(uit) blijkt dat in de door de deelnemers zelf beinvloede subinterval alerting net zo'n (grote) rol speelt als erna?

Mike · 31 okt 2015

esdalmaijer zei: ↑

5. Interessant topic. Conclusie van velen (inclusief mijzelf) is dat de grootte van het effect zo groot is (0,67 seconden langzamere tijd bij vrouwen als de starter 1 seconde langer wacht met schieten) dat het bijna onmogelijk is dat het verband causaal is.

Zie onze tweede analyse, die wel degelijk causale kracht heeft: http://www.pygaze.org/2015/10/is-skating-really-unfair-yes-even-in-extra-stringent-analysis/ . Korte samenvatting: zelfs als je controleert voor alle dingen die mensen hier en elders genoemd hebben, dan blijft er een effect van ready-start interval op racetijd. Het effect is kleiner dan in eerste instantie ingeschat, maar zeker nog groot genoeg om een probleem te kunnen zijn. Vervolgonderzoek en voorzichtigheid met de huidige startprocedure zijn dus nodig.
Klik om te vergroten...

Bovenstaande quote van mij had ik geschreven voordat je je 2e analyse had gepubliceerd. De 2e analyse lijkt heel robuust en ondersteunt inderdaad heel duidelijk jouw hypothese en er komt een realistischer effect uit onder de 0,2 seconden dat wel geloofwaardig is (hoewel nog iets aan de hoge kant). Er blijven waarschijnlijk altijd nog wel kleinere minder voor de hand liggende factoren te bedenken die het verband in jouw analyse potentieel verstoord hebben, maar wat mij betreft ligt ligt de bewijslast vanaf nu omgekeerd. Degenen die niet in jouw hypothese geloven zullen nu zelf met nieuwe inzichten moeten komen, het liefst in de vorm van nieuw onderzoek.
Neemt niet weg dat er over het oorspronkelijk artikel in mijn ogen niet goed genoeg was nagedacht. Zowel niet door jullie onderzoeksgroep, als ook door de reviewers van het journal dat dit artikel heeft laten passeren.
Je had aan de irrealistische effectgrootte van 0,67 bij de vrouwen kunnen zien dat er iets in de analyse niet goedgegaan was. De mogelijkheid tot gepaarde analyses (omdat iedereen 2x schaatste) en tot correctie voor andere beschikbare data (PRs, SBs, ritvolgorde) was gewoon beschikbaar. Dit hadden jullie de eerste keer al moeten doen. Je hebt gelijk dat in de wetenschap analyses altijd bedoeld zijn om hypothesen te vormen en het daarna verder getoetst te worden met nieuwe analyses en onderzoeken. Echter, het is niet de bedoeling dat een analyse suboptimaal uitgevoerd wordt, en daardoor na publicatie opnieuw gedaan moet worden.

esdalmaijer zei: ↑

6. Statistische power is achteraf alleen relevant als er geen significant verband gevonden is. Power hangt niet af van wat voor resultaat er uiteindelijk gevonden is. Een p-waarde van 0.045 is even geldig in een onderzoek met 20 proefpersonen als in een onderzoek met 20.000 proefpersonen. Voorwaarde is wel dat de analyse methodologisch klopt. En daar zijn dus wat twijfels over...

Zoals Beorn zei tegen Van Nieuwkerk: Dat is dus precies niet waar. Power is altijd belangrijk, of je nu wel of niet de nul-hypothese verwerpt. Het beschrijft de gevoeligheid van je statistische test, kort door de bocht is dat de kans dat je test in staat is om een effect aan te tonen. De p-waarde is overigens niet de power: de p is hier verbonden aan een andere waarschijnlijkheidsinschatting. De analyse die wij doen is methodologisch prima, ondanks wat de statistiekgehandicapten van TopSport Topics zeggen. Onze tweede analyse is nog veel beter: http://www.pygaze.org/2015/10/is-skating-really-unfair-yes-even-in-extra-stringent-analysis/
Klik om te vergroten...

Dit is simpelweg niet waar.
Als je bij een significant resultaat achteraf de power berekent, heb je de nulhypothese al verworpen. Je power was dus groot genoeg. Dat hoef je niet meer te berekenen. Mocht je hem toch gaan berekenen, dan doe je niks anders dan je p-waarde 1 op 1 transformeren naar een percentage tussen 50 en 100%.
http://daniellakens.blogspot.nl/2014/12/observed-power-and-what-to-do-if-your.html

Hier nog iemand die het kort en krachtig verwoordt:
This type of post hoc power is clearly bogus. It has a one-to-one relationship with the p-value and is always large when the p-value is small and vice versa.
http://core.ecu.edu/psyc/wuenschk/StatHelp/Power-Retrospective.htm

Mijn opmerking was overigens eerder bedoeld als steun aan jou dan als kritiek. Mensen die zeggen dat je sample size te klein was, kun je gewoon vertellen dat het feit dat je resultaat statistisch significant was, bewijzend is dat je sample size ook groot genoeg was.

Tsuki · 31 okt 2015

esdalmaijer zei: ↑

In ons voorstel is de scheidsrechter degene die bepaalt wanneer iedereen stilstaat, en daarna tijdens de ge-automatiseerde start slechts oplet of er niemand vals start. Ik denk dat de rol van de scheidsrechter ook helemaal ge-automatiseerd kan worden, maar dat leek ons een beetje een verregaand voorstel op basis van onze data, en ook op basis van de haalbaarheid.

Ik ben het dus eens met je punt: er zijn op meerdere manieren nog mogelijke verdere verbeteringen in de startprocedure aan te brengen.
Klik om te vergroten...

esdalmaijer zei: ↑

Uiteraard is het heel goed als dit gerepliceerd kan worden in een andere dataset. Nog beter is als het effect van ready-start interval op eindtijd direct aangetoond kan worden in een experimenteel design, waar geen twijfel kan bestaan over de richting van causaliteit. Echter is dat voer voor vervolgonderzoek: ons Perspective paper zet dit probleem op de kaart, en andere wetenschappers kunnen er nu verder onderzoek aan doen. Het is belangrijk dat anderen dit doen, omdat er anders de mogelijkheid is dat mensen gaan roepen dat wij belang hebben bij vervolgonderzoek dat in lijn is met ons paper.
Klik om te vergroten...

Hier zit voornamelijk het punt waardoor ik me ermee ben gaan bemoeien, ondanks mijn compleet andere (en vrij statistiekloze) achtergrond (namelijk taal&cultuur). @esdalmaijer komt met een veel genuanceerder verhaal en nodigt (zelfs) anderen uit om met dit wetenschappelijk onderzoek aan de slag te gaan, terwijl het in de media werd gebracht als definitief feit, met behoorlijke implicaties: medailles werden (misschien) oneerlijk verdeeld - ook op zijn minst gesuggereerd door Beorn Nijenhuis - en de startprocedure moest anders, namelijk zoals gepresenteerd in DWDD. Ik snap dat zo'n programma als DWDD niet het ideale podium is voor nuance, maar het is wel een keuze van een onderzoeker om in een dergelijk programma je verhaal te doen of niet. Van een medium als de Volkskrant verwacht ik dat het meer ruimte biedt voor nuance (en dan zou ik dus nog de vraag kunnen stellen hoe het kan dat dat genuanceerdere verhaal dan niet is weergegeven of of ik mijn beeld van de VK moet bijstellen). (Een andere reden voor mijn bemoeienis is de geweldige gelegenheid die hier werd geboden om meer te leren over wetenschappelijk onderzoek uit een ander vakgebied.)

Wetenschappelijk onderzoek presenteren kan in je eigen vakgebied al lastig zijn doordat je als onderzoeker verder, soms veel verder, op een bepaald onderwerp in bent gegaan dan anderen. Moet of mag je jouw onderzoek buiten je eigen vakgebied presenteren, dan wordt er ook nog eens veel van je vaardigheden met betrekking tot presentatie en didactiek gevraagd. Ik denk dat hier nog winst te behalen valt.

Voor zover ik het goed kan beoordelen ben ik inhoudelijk wel overtuigd geraakt van de wetenschappelijke benadering van het onderzoek, vooral door de weerleggingen en door de reactie - en extra analyse - van Edwin Dalmaijer op de kritische analyse van prof. Lex Borhans en, in negatieve zin, door het artikel van Topsport Topics, waarbij bewegingswetenschapper(s?) (en/of een bewegingstechnoloog) - tja, wie eigenlijk? - kritiek had op de onderzoeksmethode, maar vervolgens geen inhoudelijke argumenten aanvoerde.

@esdalmaijer , bedankt voor alle moeite die je hier op het forum hebt gedaan en succes met je verdere werk. Ik hoop dat jouw verhaal anderen, met een gedegen achtergrond in de statistiek, voldoende heeft geïnspireerd om tot vervolgonderzoek te komen.

edit: zinsconstructies verbeterd

Taiphon · 1 nov 2015

Mike zei: ↑

Degenen die niet in jouw hypothese geloven zullen nu zelf met nieuwe inzichten moeten komen, het liefst in de vorm van nieuw onderzoek.
Klik om te vergroten...

Eerlijk gezegd denk ik, dat met of zonder dit onderzoek iedereen eigenlijk wel wist, dat de startprocedure enig effect heeft op de eindtijd.

Net als de ijskwaliteit (voor of na de dweil), de prestaties van de tegenstander (op de kruising), psychologische druk versus voorkennis van de eerste of laatste rit.
Dan zijn er tegenstanders die expres vals starten, veranderingen in atmosferische toestand tijdens het toernooi, luchtcirculatie door inrijden, muziek, etc.

Doel van dit onderzoek was het effect te kwantificeren.

Neemt niet weg dat er over het oorspronkelijk artikel in mijn ogen niet goed genoeg was nagedacht. Zowel niet door jullie onderzoeksgroep, als ook door de reviewers van het journal dat dit artikel heeft laten passeren.
Je had aan de irrealistische effectgrootte van 0,67 bij de vrouwen kunnen zien dat er iets in de analyse niet goed gegaan was.
Klik om te vergroten...

Helemaal mee eens.
Ter herinnering, de reactie van esdalmaijer hierop:

10) "Instinctief voelt het aan alsof de claims danwel niet kloppen, danwel schromelijk overdreven worden."
Esdalmaijer: "Ik ga niemand vertellen dat ze niet naar hun instincten moeten luisteren, maar wij rapporteren onze data en onze methoden"
Als experimenteel natuurkundige vind ik esdalmaijer een incompetente idioot.

Een van de eerste dingen die een natuurkundestudent leert: Resultaten die onwaarschijnlijk sterk afwijken, zijn in 9/10 gevallen het gevolg van problemen met het experiment. Daarom moet je altijd een instinctieve sanity check doen.
Dat niemand in deze onderzoeksgroep of in de peer review dat heeft gedaan is een schande voor de wetenschap.

esdalmaijer zei:

Ik wil graag even verduidelijken dat wij als onderzoekers absoluut aan jullie kant staan. Kreeg van dat artikel dat een van jullie linkte (die op TopSport Topics) een beetje een naar vijandelijk gevoel, terwijl we allemaal proberen om de (schaats)sport zo eerlijk mogelijk te maken.
Klik om te vergroten...

Nee...

Als wetenschapper is jouw primaire verantwoordelijkheid een kwantitatief correcte analyse te doen.
- Je eerste, gepubliceerde analyse (0,30 en 0,67 sec) was simpelweg verkeerd.
- Je tweede analyse (0,17 sec) is beter, maar je dataselectie is nog steeds amateuristisch. (1 Olympisch toernooi)

Pas als jij je werk goed gedaan hebt, is het tijd om een discussie beginnen of iets moet veranderen.

Niet eerder.

leenstrafan · 1 nov 2015

Intussen gaat het nieuws de wereld over. Zelfs het grote Amerikaanse blog Huffington Post heeft het opgepikt.

Taiphon zei: ↑

Een van de eerste dingen die een natuurkundestudent leert: Resultaten die onwaarschijnlijk sterk afwijken, zijn in 9/10 gevallen het gevolg van problemen met het experiment. Daarom moet je altijd een instinctieve sanity check doen.
Klik om te vergroten...

Dat is in de sociale wetenschap ook. Stel je maakt een test om iemands politieke stroming te benoemen aan de hand van iemands standpunten en uit je test volgt dat Margaret Thatcher een socialiste was en Mahatama Gandhi een neoconservatief, heb je dan de politieke wetenschap omvergegooid of is er iets mis met je test?

Mike · 1 nov 2015

Taiphon zei: ↑

Als experimenteel natuurkundige vind ik esdalmaijer een incompetente idioot.
Klik om te vergroten...

Dat gaat ook weer wat te ver...

Ok, het was een snel onderzoek met een kleine en makkelijk verkregen dataset en een vlug uitgevoerde analyse, die uiteindelijk slechts leidt tot kleine nieuwe inzichten (het was iets wat we al vermoedden maar dat nu in netjes met getallen is vastgelegd). Daarbij een behoorlijk grote fout in de 1e analyse gemaakt, en te makkelijk de media opgezocht, waardoor de foute getallen uit de eerste analyse nu overal in de media verschijnen en hun eigen leven gaan leiden.

Ik vind het allemaal ook bepaald niet iets om trots op te zijn.

Echter, ondanks de gemaakte fouten, en zijn soms net iets te sterke overtuiging dat hij overal gelijk in heeft, vind ik Dalmaijer wel overkomen als iemand die voor een PhD student best goed in de stof zit. Ik ken genoeg jonge onderzoekers die voor alles afhankelijk zijn van hun begeleiders en zelf maar weinig snappen waar ze mee bezig zijn.
En ook al zijn de de nieuwe inzichten uit dit onderzoek vrij beperkt, feit blijft dat we zonder dit onderzoek helemaal niks hadden. Het onderzoek (na de 2e analyse) heeft dus wel degelijk een nieuwswaarde voor de sport. Misschien niet genoeg om meteen te besluiten om de startprocedure te veranderen. Maar wel genoeg om het verder uit te zoeken.
Persoonlijk zou ik het bevestigen in een andere dataset, en de sample size veel groter nemen, zodat je een betrouwbaarheids-interval voor de effect-grootte kan geven.
Wat is eigenlijk het 95% betrouwbaarheidsinterval van je gevonden effect-grootte van 0,17 seconden? De p-waarde zit nog maar net onder de 0,05 met je kleine hoeveelheid data. Het zou me niet verbazen als het betrouwbaarheids interval iets is zoals "tussen 0,02 en 0,35 seconden" (dus dat het werkelijke effect door statistisch toeval ook maar een paar honderdsten had kunnen zijn ipv 0,17 seconden).

esdalmaijer · 1 nov 2015

Omdat ik het niet kan laten om op sommige dingen te reageren: hierbij de laatste set antwoorden op al jullie vragen sinds mijn mega-post Is nu helaas ook eeeeeecht de laatste, sorry!

Het allerbelangrijkste mistverstand is dat onze eerste analyse niet goed zou zijn. Dit is simpelweg niet waar. De analyse is de juiste in deze situatie, en het artikel staat nog steeds. Onthoudt dat er geen enkele aanwijzingen vooraf waren om een andere analyse toe te passen die controleert voor alle post-hoc verklaringen die hier genoemd worden, omdat geen ervan ondersteund worden door wetenschappelijke literatuur. De tweede analyse is dan ook puur bedoeld als antwoord op alle sceptici, en geeft aan dat sommige van jullie post-hoc verklaringen deels waar zijn, maar dat onze publicatie ook gewoon nog klopt: er is een direct effect van ready-start interval op eindtijd.

Ik zal eerlijk zijn: graag had ik eerder gedacht aan sommige post-hoc verklaringen, en de tweede analyse ook toegevoegd aan het artikel. Maar trek daaruit niet de omgekeerde conclusie! Het artikel is nog steeds goed qua theoretische achtergrond, en ook de analyse is nog valide. Voor de duidelijkheid: de tweede analyse is geen rectificatie, maar enkel een verduidelijking. Hij toont juist aan dat de eerste analyse gewoon steek houdt.

Laatste algemene opmerking voordat ik op specifieke vragen in ga: Jullie zijn erg gefocust op de geschatte effectgrootte: is het nu 0.6, 0.3, of 0.2 seconden? Ik snap dat jullie daarop gefocust zijn, want dat is waar de media ook zwaar op focussen. Het is echter niet het belangrijkste punt dat wij maken. Dat is namelijk dat het ready-start interval een deel van de variantie in de eindtijden kan verklaren, terwijl dit in een eerlijke competitie niet zo zou moeten zijn. Hoe de verbanden precies liggen, dat is binnen onze dataset in te schatten, maar direct experimenteel onderzoek en meta-analyses van heel veel verschillende competities zouden hiervoor beter geschikt zijn. Ook zou het nodig zijn om allerlei interacties tussen derde factoren en het ready-start interval. Kortom: wij tonen aan dat er een effect is van ready-start interval op eindtijd, maar bijt je nog vooral niet stuk op de precieze effectgrootte. (Leuk detail: we hadden die getallen er in de eerste versie niet ingezet, maar een reviewer vroeg erom. Dan kun je eigenlijk niet weigeren. Neemt overigens niet weg dat dit simpelweg de getallen zijn die in onze data zitten: als je ze te groot vindt, dan is daar verder niets aan te doen.)

Ik ga hieronder weer alle specifieke vragen van antwoord voorzien. Hoop dat jullie er iets aan hebben

Wordt wel even een hoop tikwerk, dus even geduld a.u.b.

esdalmaijer · 2 nov 2015

1) Ik vind je antwoord (te) defensief. Voor een ieder is het duidelijk te zien, zonder statistiek erop los te laten, dat de mannen puntenwolk verdeling na (ca.) 4,7 sec er duidelijk anders uitziet dan daarvoor. Wetend dat het ready-start interval is op te spitsen in een ready-set en een set-start deel, kan een set-start interval boven een bepaalde waarde (verzuring?) wellicht duidelijk(er) negatief zijn. Des te meer een reden die twee subintervallen te scheiden, hoe lastig ook.

Zoals gezegd: je kunt niet zo naar een puntenwolk kijken, de enige manier om dit objectief te doen is door statistiek toe te passen. Excuses als dat te defensief overkomt! Er worden hier serieuze psychologische studies naar gedaan, en je zult zelf ook inzien dat de vorm van de wolk zeer afhankelijk is van hoe breed ik de assen maak. Om toch nog even op je commentaar in te gaan alsof we wel naar de wolk zouden kunnen kijken: je interpretatie is niet toe te passen op de data van de dames, maar ook niet op de data van de tweede analyse. En vergeet ook niet dat de spreiding op de x-as niet in tweeën te delen is op de manier die je voorstelt, omdat alle ready-set en set-start intervallen verschillende lengtes hebben (en dus niet gecentreerd zijn.)

Wat betreft het scheiden van het ready-start interval zoals je voorstelt: dat hebben we op mijn blog besproken, en is ook in de vorige vragenbeantwoording aan bod gekomen. (Samenvatting: niet te doen met huidige data, niet cruciaal voor de conclusie dat het hele ready-start interval een negatief effect kan hebben op eindtijd, maar wel superinteressant om in vervolgonderzoek onder de loep te nemen!)

2) Ik is duidelijk dat het set moment moeilijk precies te bepalen is. Maar het is relatief eenvoudig voor elke rit een splitsing te maken in de trage en de snelle setter. Als jullie insteek klopt dat alerting vanaf het ready moment begint te spelen, zou een (nieuwe) analyse dezelfde resulaten moeten geven als zonder uitsplitsing, maar als blijkt dat uitsplitsing wel leidt tot een ander resultaat (voorspelling: de snellere setters van een lang ready-start interval rijden langzamer dan de langzame setters), dan zou dat kunnen aangeven dat alerting, en bij hele lange set-start intervals wellicht ook andere zaken, pas begint (of in ieder duidelijker een rol speelt) vanaf het (vage) set moment.

Interessant punt, en interessante voorgestelde analyse. Het zou een sub-optimale manier zijn om het te onderzoeken, en je negeert ook de mentale effecten die het setten van de ene schaatser op de andere heeft. Tevens ga je voorbij aan de vraag in hoeverre de ene schaatser het setten van de andere schaatser precies kan bepalen. Ondanks al die bezwaren zou het leuk zijn als je voorgestelde data kon verzamelen en kon analyseren. Overigens doet dit niets af aan onze conclusie dat het ready-start interval effect heeft op de eindtijd, alleen aan de vraag in hoeverre dat effect voorkomt uit alerting. Dat is erg interessant, en cruciaal om te bepalen of ook het setten binnen een vaste tijd zou moeten gebeuren voor een eerlijker startprocedure.

Kortom: verzamel die data, en test die hypothese!

3) Welke van je genoemde literatuur betreft testen die goed vergelijkbaar zijn met de startprocedure bij schaatsen?

Alle genoemde artikelen. Je geeft aan dat een schaatser zelf ook invloed heeft op het ready-start interval, en dat klopt. Maar dat klaar gaan staan is dus, zoals we bediscussieerd hebben in eerdere comments hier en op mijn blog, niet van toepassing op het alerting effect. (We stelden zelfs voor er een studie naar te doen in hoeverre een dergelijk beslissingsproces een alerting effect zou kunnen hebben, en ik ben nog steeds erg benieuwd naar wat daaruit zou komen.)

4) Bovenstaande quote van mij had ik geschreven voordat je je 2e analyse had gepubliceerd. De 2e analyse lijkt heel robuust en ondersteunt inderdaad heel duidelijk jouw hypothese en er komt een realistischer effect uit onder de 0,2 seconden dat wel geloofwaardig is (hoewel nog iets aan de hoge kant). Er blijven waarschijnlijk altijd nog wel kleinere minder voor de hand liggende factoren te bedenken die het verband in jouw analyse potentieel verstoord hebben, maar wat mij betreft ligt ligt de bewijslast vanaf nu omgekeerd. Degenen die niet in jouw hypothese geloven zullen nu zelf met nieuwe inzichten moeten komen, het liefst in de vorm van nieuw onderzoek.

Jeej!

5) Neemt niet weg dat er over het oorspronkelijk artikel in mijn ogen niet goed genoeg was nagedacht. Zowel niet door jullie onderzoeksgroep, als ook door de reviewers van het journal dat dit artikel heeft laten passeren.

Minder jeej Ik blijf erbij dat we een goede theoretische ondersteuning hebben, en dat alle post-hoc verklaringen die jullie hier te berde brengen niet ondersteund worden door wat voor literatuur of cijfers dan ook. Sterker nog: we hebben met de subtiele verschillen tussen eerste en tweede analyse enigszins plausibel kunnen maken dat een snelle schaatser vermoedelijk een korter ready-start interval heeft. Dat is vrij verrassend, niet? Of het nou ligt aan de starter of aan de schaatser kunnen we verder niet zeggen (vervolgonderzoek!). En het blijft zo dat het ready-start interval van invloed is op de eindtijd. Precies wat we in het artikel beschrijven.

Vergeet trouwens ook niet dat er een oud profschaatser heeft meegewerkt aan het artikel. Hij heeft in heel zijn carriëre nergens aanleiding gezien om te verwachten dat snellere schaatsers met kortere ready-start intervallen starten. Als er iemand zoiets aan had moeten zien komen, dan is hij het wel, toch? Dat hij dat niet gedaan heeft is geen teken dat wij slecht hebben nagedacht, het is een teken dat sommige van jullie heel goed hebben nagedacht. Of gewoon een suggestie deden op basis van de heuristiek "correlation is not causation"

Bottom line: we hebben er heus goed over nagedacht, sommigen van ons hebben er heel veel directe ervaring mee, we hebben het met verschillende collegae besproken, en niemand heeft een effect van eindtijd op ready-start interval aan zien komen. Ik kan het dus simpelweg niet eens zijn met je conclusie dat we er te weinig over hebben nagedacht.

6) Je had aan de irrealistische effectgrootte van 0,67 bij de vrouwen kunnen zien dat er iets in de analyse niet goedgegaan was.

Nogmaals, voor de duidelijkheid, die analyse was zeer zeker niet fout. Zie mijn eerste reactie van deze sessie.

7) Echter, het is niet de bedoeling dat een analyse suboptimaal uitgevoerd wordt, en daardoor na publicatie opnieuw gedaan moet worden.

Er is tegenwoordig iets dat ze post-publication peer-review noemen, en dat is eigenlijk precies wat je beschrijft. Ik denk dat dat juist wel de bedoeling is. Met alle mensen die het artikel nu lezen zien we meer dan met alleen de mensen die er hiervoor naar gekeken hebben; dat is iets dat de huidige discussie wel duidelijk maakt. Tevens wijs ik er nogmaals op dat de eerste analyse niet sub-optimaal was, en dat we 'm ook niet opnieuw gedaan hebben. De tweede analyse ondersteund de eerste analyse.

8) Statistische power, link naar Daniël Lakens' blog.

Thanks, die had ik nog niet gezien! Goed punt, dat maar weinig mensen weten. Zoals Lakens aangeeft: het is gebruikelijk dat editors erom vragen, en daar gaan we maar allemaal in mee. Bedankt voor de link

esdalmaijer · 2 nov 2015

9) Reactie van @Tsuki, 31 oktober, 19:48.

Sorry, ik ga vanwege de hoeveelheid toegestane karakters per post niet je hele post citeren. Wilde je eigenlijk ook alleen even bedanken voor de positieve feedback. Ik hoop ook van harte dat onze studie tot veel vervolgonderzoek, en uiteindelijk tot een eerlijker schaatsen zal leiden. Wat betreft de media heb je gelijk: die zijn lastig om mee om te gaan, om te beteugelen, en om je verhaal genuanceerd over te doen komen. Dat is de hoofdreden dat ik hier met jullie persoonlijk nog even e.e.a. door wilde spreken

10) Eerlijk gezegd denk ik, dat met of zonder dit onderzoek iedereen eigenlijk wel wist, dat de startprocedure enig effect heeft op de eindtijd. Net als de ijskwaliteit (voor of na de dweil), de prestaties van de tegenstander (op de kruising), psychologische druk versus voorkennis van de eerste of laatste rit. Dan zijn er tegenstanders die expres vals starten, veranderingen in atmosferische toestand tijdens het toernooi, luchtcirculatie door inrijden, muziek, etc. Doel van dit onderzoek was het effect te kwantificeren.

Neen, doel van dit onderzoek was om te onderzoeken of het ready-start interval inderdaad enig effect had op de eindtijd. Dat kwantificeren kan eigenlijk alleen in zeer strict experimenteel onderzoek, of een megagrootte dataset. Maar niemand gaat die studies doen zonder dat er eerst enige aanleiding voor is. Ons artikel is die aanleiding

11) Als experimenteel natuurkundige vind ik esdalmaijer een incompetente idioot.

Ik kan er begrip voor hebben dat je het niet met me eens bent. En ik snap dat je je misschien boos voelt omdat ik je begrip van wetenschapsfilosofie bij heb moeten spijkeren in onze vorige postwisseling, en dat je daarom misschien de behoefte voelt om nare dingen terug te zeggen. Ik hoop dat je snapt dat ik er verder niet op in ga.

12) Een van de eerste dingen die een natuurkundestudent leert: Resultaten die onwaarschijnlijk sterk afwijken, zijn in 9/10 gevallen het gevolg van problemen met het experiment. Daarom moet je altijd een instinctieve sanity check doen. Dat niemand in deze onderzoeksgroep of in de peer review dat heeft gedaan is een schande voor de wetenschap.

Er is weinig fout te doen aan een correlatie, zeker als je 'm tien keer gecheckt hebt. En de data niet naar buiten brengen is een zogenoemde questionable research practice. In de natuurkunde zijn mensen meer afhankelijk van high-tech metingen, die soms inderdaad niet kunnen kloppen. In dit geval kloppen alle metingen, en zijn alle analyses op de juiste manier toegepast. Niet ieder veld is direct met elkaar te vergelijken. (Helaas, want ik ben vaak jaloers op hoe ruisloos veel natuurkundige metingen zijn!)

13) Als wetenschapper is jouw primaire verantwoordelijkheid een kwantitatief correcte analyse te doen.
- Je eerste, gepubliceerde analyse (0,30 en 0,67 sec) was simpelweg verkeerd.
- Je tweede analyse (0,17 sec) is beter, maar je dataselectie is nog steeds amateuristisch. (1 Olympisch toernooi)

Twee keer fout. De eerste analyse was simpelweg correct (zie mijn eerste post in deze serie). De tweede is een verduidelijking van de eerste. En er is niets mis met één Olympisch toernooi gebruiken: er zaten genoeg datapunten in voor een goede statistische power, en er is geen reden om aan te nemen dat Vancouver 2010 niet representatief is voor andere schaatstoernooien. Nogmaals: ik snap dat je de behoefte hebt om lelijke dingen te zeggen, maar dit is verder niet onderbouwd met enige zinnige methodologische kennis.

14) Pas als jij je werk goed gedaan hebt, is het tijd om een discussie beginnen of iets moet veranderen. Niet eerder.

Da's mooi, want ons werk is goed gedaan Tijd voor verder onderzoek, en misschien ook maar voorzichtigjes aan wat verandering in die startprocedure.

15) Dat is in de sociale wetenschap ook. Stel je maakt een test om iemands politieke stroming te benoemen aan de hand van iemands standpunten en uit je test volgt dat Margaret Thatcher een socialiste was en Mahatama Gandhi een neoconservatief, heb je dan de politieke wetenschap omvergegooid of is er iets mis met je test?

Dit was een vervolgcomment op 13, maar ik doe 'm voor de volledigheid wel even bijvoegen. Hier nogmaals het antwoord: Er is weinig fout te doen aan een correlatie, zeker als je 'm tien keer gecheckt hebt. En de data niet naar buiten brengen is een zogenoemde questionable research practice. In de natuurkunde zijn mensen meer afhankelijk van high-tech metingen, die soms inderdaad niet kunnen kloppen. In dit geval kloppen alle metingen, en zijn alle analyses op de juiste manier toegepast. De eerste analyse was simpelweg correct (zie mijn eerste post in deze serie). De tweede is een verduidelijking van de eerste. En er is niets mis met één Olympisch toernooi gebruiken: er zaten genoeg datapunten in voor een goede statistische power, en er is geen reden om aan te nemen dat Vancouver 2010 niet representatief is voor andere schaatstoernooien.

esdalmaijer · 2 nov 2015

16) Ok, het was een snel onderzoek met een kleine en makkelijk verkregen dataset en een vlug uitgevoerde analyse, die uiteindelijk slechts leidt tot kleine nieuwe inzichten (het was iets wat we al vermoedden maar dat nu in netjes met getallen is vastgelegd). Daarbij een behoorlijk grote fout in de 1e analyse gemaakt, en te makkelijk de media opgezocht, waardoor de foute getallen uit de eerste analyse nu overal in de media verschijnen en hun eigen leven gaan leiden.

Oei, weer niet helemaal goed begrepen. Onze eerste analyse klopt gewoon. De tweede analyse ondersteunt enkel de eerste, en geeft een iets betere schatting van de effectgrootte. Onze conclusie in het artikel is dat er een effect is van ready-start interval op eindtijd, en dat wordt ondersteund in beide analyses. Nogmaals: jullie focussen teveel op de getallen. Die getallen zijn zeer zeker niet verkeerd, in geen van de analyses! Maar je moet goed opletten wat ze betekenen (en dat is iets dat door de media niet helemaal goed gedaan is, dus ik heb hier het verhaal verduidelijkt). Samenvatting: er is een effect van ready-start interval op eindtijd, en dat zou er in een eerlijke situatie niet moeten zijn. Dat was nog nooit wetenschappelijk aangetoond, dus dat is nieuws.

Wat precies de effectgrootte is, is beter te bepalen in vervolgonderzoek, omdat je dat van iedere afzonderlijke factor kunt bepalen in hoeverre zij meespeelt. De volledige verhouding tussen ready-start interval en eindtijd zijn de getallen die we in het artikel noemen. De eenzijdige (causale) verhouding tussen ready-start interval en eindtijd is wat we in de tweede analyse noemen. Alleen in direct experimenteel onderzoek kun je aantonen wat de individuele verhouding tussen alerting, spiervermoeidheid, etc. en de eindtijd is.

17) Echter, ondanks de gemaakte fouten, en zijn soms net iets te sterke overtuiging dat hij overal gelijk in heeft, vind ik Dalmaijer wel overkomen als iemand die voor een PhD student best goed in de stof zit.

Nogmaals: er zijn methodologisch, statistisch, en qua literatuuroverzicht geen fouten gemaakt. Maar misschien is dat omdat ik een te sterke overtuiging heb dat ik overal gelijk in heb? Maar serieus: wij hebben hier veel werk in gestoken, en veel nadenkwerk, en zijn bekend met de relevante wetenschappelijke literatuur (zoals je zelf ook aangeeft). Ik ben de eerste die aangeeft dat de post-publicatie review een zeer vruchtbare discussie was, die liet zien dat wij ook niet aan alle mogelijke post-hoc verklaringen gedacht hadden (omdat die dus nooit in wetenschappelijke literatuur of in de ervaring van Beorn en zijn collegae naar voren zijn gekomen). Maar dat doet niet af aan ons werk, dat aannemelijk maakt dat er een effect van ready-start interval op eindtijd is, zelfs als je controleert voor alle post-hoc verklaringen die mensen na publicatie hebben geopperd.

Ter verduidelijking: wetenschap, en zeker Perspective-artikelen, zijn er om een voorzet te geven voor vervolgstudies. En, in afwachting van die studies, misschien voorzichtig te doen met de huidige procedures, bijvoorbeeld door deze iets verder te standaardiseren.

18) Persoonlijk zou ik het bevestigen in een andere dataset, en de sample size veel groter nemen, zodat je een betrouwbaarheids-interval voor de effect-grootte kan geven.

Goed plan, dat is eigenlijk precies de bedoeling van wat ik bij antwoord 17 beschrijf Wat betreft je daaropvolgende vraag van de confidence interval van de slope in onze regressie, zou ik graag verwijzen naar mijn eerste comment in deze serie: de precieze effectgrootte is van toepassing op de huidige dataset, en het punt is eigenlijk voornamelijk dat er een effect is van ready-start interval op eindtijd, niet precies hoe groot en wat de sub-componenten zijn. Ik heb hier de data niet bij me, dus kan het niet voor je narekenen momenteel, maar het zijn twee positieve getallen en ze vallen rond de oorspronkelijke schatting (sorry, beetje flauw ). We zijn het eens over het belang van vervolgonderzoek om de effecten en sub-componenten van het ready-start interval uit te zoeken, dat is voor nu het belangrijkste.

======================= EINDE =======================

Ennnnn dat was het weer! Nogmaals, en nu echt voor de laatste keer, mijn dank voor al jullie reacties en ideeën! Het was echt heel leuk om er met jullie over te kletsen, en ik denk dat we het met zijn alleen eens zijn dat er een indicatie is dat ready-start intervallen effect kunnen hebben op eindtijden, en dat vervolgonderzoek zeer belangrijk is. En, misschien iets controversiëler, dat er goed nagedacht moet worden over het veranderen van de startprocedure, al is het maar om eventuele 'thuisstarters' te voorkomen in toekomstige wedstrijden.

Nogevendit · 2 nov 2015

Allereerst: dank voor de openheid en de bereidheid een aantal vragen te beantwoorden. Ook al zijn deze vragen weinig open en meer directe aanvallen.

#23 (Als ik heel simpel naar de data kijk (is niet een objectieve methode, dat klopt), dan zie ik in het artikel dat de mannen tot 4.7 seconden volledig vlak zijn, geen invloed dus, en vanaf 4.7 seconden gaat het heel hard omhoog. Misschien kunnen schaatsers wel niet zo lang stil staan en verzuren ze dan waardoor ze langzamer zijn, of misschien kunnen die langzame mensen het wel niet.)

A: Je kunt niet naar een puntenwolk kijken en er resultaten uit beredeneren. Het zijn simpelweg teveel punten om te kunnen overzien. Daarom hebben we statistiek, dat is een objectievere methode.
Klik om te vergroten...

Het is natuurlijk een volstrekt willekeurige aanname, wiskundig of logisch gezien, om een verband tussen twee variabelen, zoals in een puntenwolk, als lineair te beschouwen
Dat we dat statistisch nou eenmaal wel zo doen, alla, maar als je kijkt naar de puntenwolk, zie je inderdaad een redelijk random verdeling, met boven de 4.7 sec alleen nog maar erg trage eindtijden. Juist dat zou zeer goed verklaard kunnen worden uit die slechte start, waarbij iemand m heel duidelijk verprutst.

Het kijken steeds naar één rijder, en dan paarsgewijz zijn (haar) 1e versus 2e rit is inderdaad veel sterker, ik schreef het al in mijn eerste reactie. Alleen sluipt er dan één probleem in: wat als ALLE 2e races sneller waren, bijvoorbeeld door verschillen in luchtdruk. We zien dat wel vaker op toernooien.
En wat dan, als de tweede race een andere starter aan het werk was, met een iets sneller RSI?
Dit verschil had je weg kunnen werken door meerdere races te vergelijken, bijvoorbeeld 1 dataset de herenraces en 2e set de damesraces.
Het samenvoegen van de meetresultaten van dames en heren vergooit deze kans.

Q:waarom niet naar 100 m tijden kijken
A: omdat de eindtijd is wat uiteindelijk telt. Wellicht gaat de schaatser zijn rit anders indelen, en een verprutste start goedmaken door meer op het eerste deel te geven.

really ? op de 100 meter? Je wijst elders op de inbreng van Nijenhuis, maar dit lijkt me toch wel een heel zwak argument.

Het gaat er bij mij, en de rest van het hele schaatsforum ook niet in dat een Margot Boer, met een normale opening van 10,8 (bijv) opeens 1147 opent als (en doordat) ze te lang stil moest staan. Dan moet er iets et causaliteit aan de hand zijn. De hier al genoemde stelling:
"betere schaatsers staan sneller stil, dus kan de starter eerder start zeggen"
kan volgens mij ook heel eenvoudig getoetst worden met de jullie reeds ter beschikking staande gegevens. Lees voor betere schaatsers even de latere races in de wedstrijd.

Het daarna genoemde verschil van 0,17 acht ik zeer wel mogelijk. 1, 2 tiende verliezen door een (erg) trage start, want we hebben het hier over één seconde langer RSI.

en overigens nog deze:
"als je meting zeer onlogisch overkomt, is je porbleemsteling vaak niet goed. "
de een zegt dat dit in de natuurunde zo is, de ander wijst op de psychologie, maar...
telt dit niet voor alle dagelijks leven ook?

Hakkie2 · 2 nov 2015

En het is logisch dat er een focus ligt op het verschil. Als het verschil 0.6 zou zijn (wat dus niet waar is) moest er wat aan de start gedaan worden. Als het verschil 0.1 is, dan kan dat best acceptabel zijn. Er kleeft namelijk ook een groot nadeel aan een computer met een vast verschil: we gaan veel meer pick-starts zien. Schaatsers zullen daar zelfs op gaan trainen, om hun lichaam te wennen aan dat vaste verschil. Ze zullen dan dus niet meer na het startschot starten, maar een vaste tijd na ready. En dat is toch echt niet de bedoeling bij de start. Dan liever het mogelijke risico van 0.17 verschil bij een extreem trage start.

Kortom: het verschil bepaald of er wat aan gedaan moet worden. En uit jullie tweede analyse blijkt dat het dus niet echt nodig is.

Mike · 2 nov 2015

Nu de meeste dingen al gezegd zijn, begin je 2 standpunten van jou tot in den treure te herhalen:
1. Het gaat niet om effectgrootte. Het gaat om aantonen van het verschil.
2. Analyse nummer 1 was wel correct, omdat het verschil juist werd aangetoond.

Punt 1. Het gaat niet om effectgrootte. Het gaat om aantonen van het verschil.

Hier wordt uitgelegd waarom effectgrootte belangrijker is dan aantonen van het verschil:
http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3444174/
Statistical significance is the least interesting thing about the results. You should describe the results in terms of measures of magnitude –not just, does a treatment affect people, but how much does it affect them.
-Gene V. Glass1

The primary product of a research inquiry is one or more measures of effect size, not P values.
-Jacob Cohen2

These statements about the importance of effect sizes were made by two of the most influential statistician-researchers of the past half-century. Yet many submissions to Journal of Graduate Medical Education omit mention of the effect size in quantitative studies while prominently displaying the P value. In this paper, we target readers with little or no statistical background in order to encourage you to improve your comprehension of the relevance of effect size for planning, analyzing, reporting, and understanding education research studies.

Je kunt misschien discussieren of deze quotes misschien niet iets te zwart-wit zijn en dat in de praktijk p-waarde soms ook best belangrijk is. Het is echter te zot voor woorden dat je hier in je eentje ons allen probeert te overtuigen dat het andersom is.

Punt 2. Analyse nummer 1 was wel correct, omdat het verschil juist werd aangetoond.

Als je punt 1 niet accepteert, kun je hier stoppen met lezen. Als je hem wel accepteert: Bij analyse nummer 2 verdween bij de mannen 50% van je resultaat en bij vrouwen 70%. En dat kwam doordat je gepaarde data als ongepaard in je analyse stopte en daardoor een belangrijke confounder liet zitten. Dat is geen verfijning van je eerdere resultaten. Dat is een verandering. Je hebt geluk dat de correlaties nog boven de 0 en nog significant bleven. Dit "geluk" is te danken aan je goede hypothese en vraagstelling van dit onderzoek, en niet aan je vertrouwen in de statistische betrouwbaarheid van analyse nummer 1.

Als je deze 2 punten toch blijft volhouden, heeft verder discussieren inderdaad geen zin meer, en eindigt de interessante discussie helaas met de constatering dat je bent blijven hangen op 2 vrij merkwaardige standpunten.

Maar goed, ook als dat het geval is, is het uiteindelijke resultaat wel interessant. Ik dank je voor dit onderzoek en voor je bijdragen op dit forum.

Tsuki · 2 nov 2015

Hakkie2 zei: ↑

(...) Er kleeft namelijk ook een groot nadeel aan een computer met een vast verschil: we gaan veel meer pick-starts zien. Schaatsers zullen daar zelfs op gaan trainen, om hun lichaam te wennen aan dat vaste verschil. Ze zullen dan dus niet meer na het startschot starten, maar een vaste tijd na ready. En dat is toch echt niet de bedoeling bij de start. Dan liever het mogelijke risico van 0.17 verschil bij een extreem trage start. (...)
Klik om te vergroten...

Ha, leuke wending in de discussie: de pickstart! Mark Tuitert wilde daar volgens mij ook al over beginnen in de uitzending van DWDD:

Maar Beorn, als dit de computer is, dan gaat Erben niet zo starten, kan ik je vertellen. Die gaat zijn best doen om ... ("interruptie")
Klik om te vergroten...

Een start die zo efficiënt mogelijk wordt uitgevoerd door een schaatser hoeft niet per se een nadeel te zijn, maar ik vind wel dat er te weinig aandacht is geweest voor de verdere gevolgen van het invoeren van zo'n start. Wie of wat ga je bijvoorbeeld laten bepalen of de schaatser te vroeg of te laat weg is? De starter? Dan heb je weer te maken met een menselijke factor en het is mij dan niet duidelijk of deze menselijke invloed te verkiezen is boven het minieme verschil in wachttijd. Of laat je elektronisch, bijvoorbeeld door middel van een laserstraal, bepalen of de schaatser te vroeg over de streep gaat. En meet die elektronica dan alleen de plaats van de schaatser ten opzichte van de startstreep of registreert zo'n systeem alle bewegingen in het lichaam van de schaatser?

Als zo'n systeem alleen meet of de schaatser wel of niet de startstreep raakt of overschrijdt, wat voor zin heeft het dan nog om stil te staan? Haal je het stilstaan weg uit de start, dan is de verandering in de schaatssport wel heel wat essentiëler dan eerder werd gesuggereerd bij het voorstel om een computer het uiteindelijke startschot te laten geven. (Ik vind het persoonlijk niet erg als het stilstaan uit de sport zou verdwijnen, als er maar wel een bepaling is dat je binnen een bepaalde tijd tot het startsignaal niet verder dan een beperkt aantal centimeters van de startlijn af mag staan, om vliegende starts te voorkomen.)

Verder ben ik ook benieuwd of zo'n nieuw systeem meer of minder valse starts zou opleveren. Kun je dat onderzoeken in een gesimuleerde situatie? Of kun je dit alleen valide onderzoeken als het echt ergens om gaat, dus bij belangrijke wedstrijden voor toppers? Argument voor meer valse starts is al genoemd door @Hakkie2. Argument voor minder valse starts: schaatsers trainen erop. Is er al onderzoek gedaan naar het - vermoedelijk negatieve - effect op de tweede start als de eerste start vals was? Als dat is of kan worden aangetoond, zullen schaatsers valse starts waarschijnlijk proberen te voorkomen. In dat geval lijkt het me wel een verbetering binnen de schaatssport.

Nogevendit · 2 nov 2015

Laten we nog eens even teruggaan naar de beginstelling:
"hoe langer het RSI.....des te trager de eindtijd"
Laten we dit, eendachtig dominee Gremdaat eens even secuur proeven.
hoe langer het R-SI, des te trager de eindtijd. Kent u die uitdrukking, dames en heren?
Hoe langer de RSI.....waarom is de ene RSI dan langer dan de ander? Wat veroorzaakt deze willekeur?

Oorzaken van een langer RSIHiervoor trekken wij de zaken zover mogelijk uit elkaar. Kluwen ontwaren lukt erg goed als je zaken uit elkaar trekt.
Dus een Ready-set interval en een set-go interval.
1. Het trager aannemen van de laatste, ultieme starthouding (hiervoor al genoemd, het zgn ready -set interval.). Hiervoor zijn 3 redenen. (wellicht niet uitputtend)
a. De een gaat op ready inzakken en staat klaar, de ander zakt ook in, en zet dan nog eens een voet naar achteren.
Persoonlijk heb ik mij al sinds de downstart geërgerd aan deze tweedeling, en je zag mi ook dat het nadelig is voor een staande starter wanneer
hij tegen een downstarter moet uitkomen
b. na het 'ready' van de starter gaan sommige schaatsers , zeker op de 500m, nog niet meteen naar beneden, juist om het ready-set moment te verlengen, met het doel het set-go moment te verkorten. Korter, of idealiter helemaal niet stilstaan, om de spiertonus te verminderen
c. Sommige schaatsers slagen er niet zo goed in, zeg maar al la Gerritsen, ook helemaal stil te gaan staan. Ze blijven wat wiebelen.

2. Een langere periode van stilstaan, zeg maar het set-start interval. Het interval waarbij de argeloze tv-kijker, aangespoord door (destijds) een frank Snoeks al snel geergerd uitroept 'schiet dan toch man!". De rijders staan (bijna) stil, maar er wordt niet geschoten. Waardoor komt dat?
Om te beginnen mag ik stellen (mag ik dat zeggen ja dat mag ik zeggen), dat ik ervan overtuigd ben dat de grote verschillen in RSI niet uit SGI maar uit ready set interval komen. Want ik kán me niet voorstellen dat de ene schaatser een volle seconde langer stilstaat dan een ander in een andere start. verschillen zijn ofwel (veel)kleiner, of verwijzen weer naar punt 1.
Waarom dan nog wel verschillen in SGI?
a. een schaatser staat nog niet helemaal stil (aan begin SGI)
b. verschillen per starter
c. schaatsers beginnen toch weer te wiebelen. Starter wacht even extra, alvorens af te fluiten of (soms) alsnog weg te schieten

Vervolgens kunnen we kijken naar 'wat bepaalt een snelle eindtijd?
1. getraindheid (in al haar facetten, techniek, kracht, souplesse etc.)
2. het ijs
3. de luchtweerstand (circulatie!)
4. etc.

Om dan vervolgens eens te kijken naar de stelling 'als A, dan B'.
Maar zouden er ook factoren kunnen zijn, die zowel A als B beïnvloeden?
Zodat we iets krijgen als een factor C, waarvoor geldt:
(1) als C dan A
(2) als C dan B.
welnu: C, dus ook A (stelling 1), maar ook B (stelling 2)
ergo (door C): als A, dan B.
Meer toegepast hier:
- goede schaatsers staan eerder (helemaal) stil, en stiller
- goede schaasters realiseren een betere eindtijd
ergo: mensen die eerder stil staan, realiseren een snellere eindtijd

Kortom:
ik vind het methodologisch model toch wat mager.
De genoemde literatuur, over alertness e.d heeft mi vooral betrekking op het SGI, waar de grootste verschillen (lijken mij, ons)
vooral in het R-set-I zitten. En het trekken van de conclusie, sneller dóór het kortere RSI, vrij kort door de bocht.
Weliswaar signifcant volgens de onderzoekers, maar dat sluit niet uit dat die correlatie gelegd wordt doordat er enkele gevallen zijn
waarin dit erg speelt. (genoemd: de staande starter die moet wachten op een downstarter, het grote verlies bij een RSi > 4,7 sec, etc.)

Nogevendit · 2 nov 2015

ga ik verder in op de hierboven genoemde 6 redenen waarom er een langer RSi is, dan kom ik gemakkelijke tot zes bijbehorende nadelen voor de rijders, leidende tot zes keer een tragere eindtijd.
1a. een staande starter tegen een downstarter. Dit is nadelig voor de staande starter. Hij staat langer stil, te lang, wat nadelig is voor de eindtijd.
Overigens: als dit zo is, is dat weer juist een verklaring van waar de onderzoekers al mee wamen. Dus geen tegenspraak. Wel een zeer logische verklaring, niet echt met het RSI sec te maken.
1b. trage starters. (=de schaatsers). ook dit zou contraproductief kunnen zijn. Met een expres trage start de tegenstander een loer draaien. Dit zou wel eens blijken effectief te zijn, gezien de uitkomsten van het onderzoek.
1c. Duidelijk, de schaatser slaagt er niet in (helemaal) stil te staan, blijft wiebelen, dit met tot gevolg een tragere eindtijd voor hem/haar en ook z'n directe tegenstander, die wordt geconfronteerd met een tragere start.

Vervolgens staan beiden stil, gaat het SGI in. Zoals al gezegd waarschijnlijk weinig verschillen hierin.
2a. zie 1c,
2b. de ene starter kan trager zijn dan de andere. Uit mijn persoonlijke ervaring weet ik vooral, dat bij de voorspelbare starter gemakkelijker een pikstart te maken is. En een goee pikstart scheelt 1,2 tiende.
2c. heeft ook weer met 1c te maken. Met nu de opmerking, dat wanneer je na eenmaal stilstaan alsnog weer (een heel klein beetje wiebelt, te veel is natuurlijk sowieso vals, maar de starter twijfelt dan of ie af moet fluiten. Dit verlengt de startprocedure enorm, en dat zal zijn weerslag hebben.

IJskoud · 2 nov 2015

Hele eerlijke en open discussie van Edwin. Hulde dat je moeite steekt in het bediscussiëren van resultaten tegen de soms enigszins dovemansoren. Hij zal weinig overig werk gedaan hebben gekregen afgelopen week...

Veel punten zijn duidelijk beantwoord. Drie fundamentale vragen blijven bij mij over (maar dit is voornamelijk herhaling van wat anderen al gezegd hebben):
* Wat gebeurt er met de 100m splittijden? Kost nauwelijks moeite om uit te zoeken vermoed ik, en het is gewoon interessant om te weten wat er daar gebeurt. Als er namelijk geen effect is op de 100m tijden en wel op de 500m tijden, dan is er iets bijzonders aan de hand met de door Edwin gesuggereerde compensating efforts (of hoe hij het noemde, ben ik vergeten), of nog zelfs iets anders. Dat verdient op zijn minst vervolgonderzoek. Misschien wil ik dat komend weekend zelfs nog wel even plotten, misschien vraag ik daarvoor ook nog wel de oorspronkelijke data.
* De echte cue lijkt mij toch echt, zonder iets te weten van de literatuur over cue's, het moment van stilstaan (of eventueel het stilstaan van je tegenstander). Elke schaatser weet dat de klok dan begint te tikken. Het is lang niet zo nauwkeurig voor een schaatser als een Ready?, maar toch wel belangrijker. Was het niet ook zo in de theorie dat er bij cue's verschillen optraden rond de 500 ms? Dan is 4 seconden voor een cue wel erg ver daarvan verwijderd, de 1s een stuk realistischer.
* De analyse van Lex Borhans geeft aan dat snellere schaatsers sneller starten, en zegt daarmee in principe dat het artikel het verkeerde verband heeft gelegd. Hoe kan je deze analyse samen zien met de analyse uit Edwin's blogpost? Kunnen ze naast elkaar bestaan, of bijten ze elkaar? (daarvoor zit ik er niet ver genoeg in)

Nog belangrijker is: wat doe je met de resultaten van dit onderzoek?
1. Vervolgonderzoek. Ofwel door Edwin en mede-auteurs, ofwel door anderen. Klinkt als een prima idee. Hij heeft nu in elk geval genoeg ideeën gekregen van iedereen voor een goed vervolgonderzoek.
2. Schaatsprocedure aanpassen. Mij lijkt het nog onvoldoende bewezen dat er werkelijk iets oneerlijks aan de hand is (er is iets aan de hand, maar wat is nu echt werkelijk de oorzaak?) om procedures te gaan aanpassen. Het kost heel veel geld om procedures aan te passen. Voor alleen WK's of OS is dan nog wel mogelijk, maar dan moet het ook bij alle amateurswedstrijden toepassen. Bijvoorbeeld een klok inbouwen in het startpistool: nieuwe apparatuur, startpistool koppelen aan een elektronische klok (gezien wat er nu altijd al misgaat bij wedstrijden, gaat dat echt een drama worden). Kost veel geld, tijd en manschappen en dat komt de sport uiteindelijk niet ten goede.

Taiphon zei:

Als experimenteel natuurkundige vind ik esdalmaijer een incompetente idioot.
Klik om te vergroten...

Als experimenteel natuurkundige schaam ik me dat iemand zo'n opmerking maakt over een medemens.

Edwin zei:

Zoals gezegd: je kunt niet zo naar een puntenwolk kijken, de enige manier om dit objectief te doen is door statistiek toe te passen. Excuses als dat te defensief overkomt! Er worden hier serieuze psychologische studies naar gedaan, en je zult zelf ook inzien dat de vorm van de wolk zeer afhankelijk is van hoe breed ik de assen maak.
Klik om te vergroten...

Ik heb nog nooit iets gezien in data dat niet bestond. Ik heb hooguit niets gezien in data waar achteraf wel wat in zat. Toegegeven, zit vaak veel minder ruis in die soort metingen.
Je kan hooguit dingen overdrijven, of ruis laten lijken alsof het echt is. Maar die ruis had achteraf altijd een goede reden.
In je tweede analyse valt de data na 4.7s bij de mannen inderdaad weg vanwege de gebruikte methode. Ik ben benieuwd wat het antwoord is op je tweede analyse als je bij de mannen het deel vanaf 4.7s weglaat. Het is dan niet langer een zuivere analyse, maar als het volledige effect dan wegvalt, kan je nog wel eens goed nadenken over het effect. En moet je eigenlijk een tweede (of derde) meting doen en daarbij dezelfde twee analyses toepassen. Als die hetzelfde zeggen, kan je zeggen dat de 4.7s een belangrijk punt vormt.
Qua vrouwen is er dan (momenteel) nog steeds niets te zien, dat klopt. Maar ook daar kan je statistiek voor gebruiken.

Grootste punten van discussie tussen Edwin en de rest lijkt zijn heilige vertrouwen in de theorie van cue's te zijn, waar de rest vragen bij stelt. Niets mis mee, maar waarschijnlijk gaan we het daar gezamenlijk ook nooit over eens worden. Dan blijft dus alleen nog de data staan.
Edwin is natuurlijk een expert op de literatuur, maar als de grote massa iets niet kan begrijpen, is het ofwel verkeerd uitgelegd, of fout. Zelfs met ingewikkelde natuurkunde geldt dat, heb ik al eens moeten ervaren.

Edwin zei:

Kortom: verzamel die data, en test die hypothese!
Klik om te vergroten...

Jij wordt hiervoor (dat mag ik tenminste hopen) betaald, wij niet

Maar als je overzichtelijke data hebt zoals je op je blog en artikel hebt gezet, wil ik best een halfuurtje klooien om naar mijn punten te kijken.

Aanmelden

Startprocedure

strawbale Well-Known Member

Mike Member

Tsuki Active Member

Taiphon Member

leenstrafan Well-Known Member

Mike Member

esdalmaijer New Member

esdalmaijer New Member

esdalmaijer New Member

esdalmaijer New Member

Nogevendit Well-Known Member

Hakkie2 Well-Known Member

Mike Member

Tsuki Active Member

Nogevendit Well-Known Member

Nogevendit Well-Known Member

IJskoud New Member

Deel Deze Pagina

Aanmelden

Nuttige Zoekopdrachten

Startprocedure

strawbale Well-Known Member

Mike Member

Tsuki Active Member

Taiphon Member

leenstrafan Well-Known Member

Mike Member

esdalmaijer New Member

esdalmaijer New Member

esdalmaijer New Member

esdalmaijer New Member

Nogevendit Well-Known Member

Hakkie2 Well-Known Member

Mike Member

Tsuki Active Member

Nogevendit Well-Known Member

Nogevendit Well-Known Member

IJskoud New Member

Deel Deze Pagina